1)pandas主要存储和处理非数值型数据,也可以存储和处理数值型数据
2)pandas模块有两种常用的类,一种是Series,一种是DataFrame。Series和DataFrame是指数据结构,主要用来装载和处理数据。
Series当成一维数组,它本质上不是一维数组,由两部分组成,一个是value,一个是index
可用用列表、字典
import pandas as pd
z=Series(data=[1,2,3,'four'])
z=Series(data=np.random.randint(0,100,size=(3,)))
z=Series(data=[1,2,3,'four'],index=['a','b','c','d']) index 表示显示索引,如果没有index,那就是隐式索引。用index增加可读性
dic={'语文':100,"数学":80,"理综",120}
z=Series(data=dic)
上面三种方式创建Series
3)series索引和切片:
3.1索引:因为是类似一维数组,可以用 z[0]或者 z.语文,可以用 点 的形式找出数据
3.2切片:z[0:2]
4)常用属性 .shape .size .index .values .dtype dtype('o') 表示object,字符串类型
5)常用方法: .head()显示前N个数据,默认是5
.tail()显示后N个数据
.unique() 去重的意思
.isnull()用于判断每一个元素是否为空,如果为空,返回true,否则为false
.notnull()用于判断每个元素不为空
6)series的算术运算:索引一直的元素运行算术运算,否则补空,NaN