Python数据分析三剑客之Pandas
pandas
处理数值型以外的其他类型数据。
常用类:Series,DataFrame
Series
是一种类似于一维数组的对象,有两部分组成:
values:一组数据(ndarray类型)
index:相关的数据索引标签
Series的创建:
- 由列表或numpy数组创建
a = Series(data=[1, 2, 3, "Four"])
b = Series(data=np.random.randint(0, 100, size=(3, )))
// 注:用numpy创建时数组必须为一维
a = Series(data=[1, 2, 3, "Four"], index=['a', 'b', 'c', 'd'])
# 用index指定显示索引,默认为0,1,2,3...
# 显示索引可以增强series的可读性
- 由字典创建
dic = {
'语文': 100, '数学': 99, '理综': 250}
c = Series(data=dic)
Series的索引和切片:
# c[0]
c.语文
// 100
c[0:2]
//
语文 100
数学 99
dtype: int64
Series常用属性:
- shape
- size
- index 索引
- value 元素值
- dtype 元素类型
Series常用方法:
- head() 显示前n个数据,tail() 显示后n个数据
- unique() 去重
- isnull() 用于判断元素是否为空,notnull() 用于判断元素是否为非空
- add(),sub(),mul(),div() 索引一致的进行算术运算否则补空
a1 = Series(data=[1, 2, 3], index=['a', 'b', 'c'])
a2 = Series(data=[1