由于工作后模拟仿真会产生大量的数据,如何正确地读取、清洗、处理和可视化数据是我必须要面对的问题,pandas是一个常用的数据处理的python库,它所包含的数据结构和数据处理工具的设计使得在python中进行数据清洗和分析非常快捷。下面开始对pandas库的特性和方法总结:
pandas数据结构介绍
1.Series
series对象自身和其索引都有name属性,这个特性与pandas其他重要功能集成在一起:
obj4.name=‘population’
obj4.index.name=‘state’
2.DataFrame
frame.head()会选出头部的五行;
dataframe有两种检索其中一列的方式frame[‘year’]和frame.year,该两种函数均返回一个series,frame[column]对于任意列名均有效,但是frame.column只在列名是有效的python变量名时有效,所以尽量使用frame[column]结构。;
空的‘debt’列可以赋值为标量值或值数组:
frame[‘debt’]=16.5 frame会新增debt列,并且值均为16.5
frame[‘debt’]=np.arange(6.) frame会按照索引从低至高给debt列赋值0、1、2、3、4、5
将series赋给一列时,series的索引将会按照dataframe的索引重新排列,并在空缺的地方填充缺失值。
增加一列布尔值,判断条件是state列是否为‘ohio’:
frame[‘eastern