python数据预处理笔记

python数据预处理笔记

  • numpy
  • pandas

numpy

设计目的是处理大数据

arr1=np.array(data) //不用编写循环即可对数组内数据进行批量运算。
arr_slice=arr[5:8] //数组中序号5、6、7元素的切片
arr_slice[1]=123 //切片作为一个新的数组其中序号1元素被重新赋值

pandas

Series:
obj=Series([4,7,5,2],index=[‘d’,’a’,’b’,’c’]) //创建带索引的series对象。
与普通的numpy数组相比,可以通过索引的方式选取Series中的单个或一组值
可以将Series看成是一个定长的有序字典,如果数据被存放在一个python字典中,可以直接通过这个字典来创建Series

DataFrame
DataFrame是一个表格型的数据结构,每列可以是不同的值类型。

将数据文件读取为DataFrame对象的函数:
-pd.read_csv(‘filename.csv’)
-pd.read_table(‘filename’,sep=’,’) //sep后指定分隔符

写出:
-data.to_csv(‘filename’,sep=’ ‘,index=False,header=False,cols=[‘a’,’b’]) //分隔符自己定; 禁用行和列的标签;只输出a、b列;

数据文件读取前n行:
-pd.read_csv(‘fn.csv’,nrows=1000) //参数中直接可以实现

读取json格式文件:
-json.load( )

DataFrame创建:
-data1=pd.DataFrame(data,index=[0,1,2],columns=[‘one’,’two’,’three’])

取列索引:
-DataFrame[‘column’]

取行索引:
-DataFrame.ix[‘row’]

axis=0表述列
axis=1表述行

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值