python数据预处理笔记
- numpy
- pandas
numpy
–设计目的是处理大数据
arr1=np.array(data) //不用编写循环即可对数组内数据进行批量运算。
arr_slice=arr[5:8] //数组中序号5、6、7元素的切片
arr_slice[1]=123 //切片作为一个新的数组其中序号1元素被重新赋值
pandas
Series:
obj=Series([4,7,5,2],index=[‘d’,’a’,’b’,’c’]) //创建带索引的series对象。
与普通的numpy数组相比,可以通过索引的方式选取Series中的单个或一组值
可以将Series看成是一个定长的有序字典,如果数据被存放在一个python字典中,可以直接通过这个字典来创建Series
DataFrame
DataFrame是一个表格型的数据结构,每列可以是不同的值类型。
将数据文件读取为DataFrame对象的函数:
-pd.read_csv(‘filename.csv’)
-pd.read_table(‘filename’,sep=’,’) //sep后指定分隔符
写出:
-data.to_csv(‘filename’,sep=’ ‘,index=False,header=False,cols=[‘a’,’b’]) //分隔符自己定; 禁用行和列的标签;只输出a、b列;
数据文件读取前n行:
-pd.read_csv(‘fn.csv’,nrows=1000) //参数中直接可以实现
读取json格式文件:
-json.load( )
DataFrame创建:
-data1=pd.DataFrame(data,index=[0,1,2],columns=[‘one’,’two’,’three’])
取列索引:
-DataFrame[‘column’]
取行索引:
-DataFrame.ix[‘row’]
axis=0表述列
axis=1表述行