Pandas库 入门浅析
前言:根据pandas库的工具,我们将要处理的数据一般分为俩种:Series(一维数据,如单行,单列) 和 DataFrame (二维数据,如一般表格形式)。实际中,我们主要是用DataFrame处理我们工作中的数据,所以本节侧重讲DataFrame。
1.Series
略
2.DataFrame
- DataFrame的生成
例:
data={'a':[1,2,3] , 'b':[4,5,6]}
1 | 4 |
2 | 5 |
3 | 6 |
frame=DataFrame(data,columns=['a','b'],index=[0,1,2]),以上为生成DataFrame语句,columns参数重新定义列名,index定义行名。
- DataFrame一些基本操作
frame['a'] 或 frame.a 索引'a'列数据,以此类推.
frame.ix[0], 索引第一行数据,以此类推,frame.ix[1] 索引第二行。
del frame['a'] 删除‘a' 列数据,frame.T对数据进行转置。
- 基本功能
重新创建适应索引 frame.reindex['q','w','e',r','d','f']
丢弃指定轴上的某一项 frame.drop(0), 丢弃第一行。frame.drop('a',axis=1) 与del frame['a']作用一样,丢弃’a'列。
将函数应用到每行或每列的数组上 frame.apply(func).
将函数应用到单元 frame.applymap(func)
排序和排名 frame.sort_index(by='a',ascending=False)
计算描述统计 frame.decrible() sum/mean/corrwith
过滤缺失数据 frame.dropna(how='all') ' all'表示去除全部为NA的行 isnull和notnull 判定是否有缺失数据,
填充缺失数据 frame.fillna(value)
数据转置 frame.unstack()---将列名转变成行名。frame.stack()--将行名转变成列名。
创建轴标签 frame.index.names=[] 或 frame.coulumns.names=[].
根据级别计算 frame.sum(level='')
将一列或 多列设置为索引 frame.reset_index([],drop=False)
本节主要讲了对DataFrame数据的各种基本操作,帮助我们整理,清洗,处理数据。