pandas学习之数据加载即探索性数据分析

数据分析的一个重要包就是pandas。这里通过使用机器学习来做kaggle上的一个任务来学习pandas的使用,以及数据分析常用的一些编程方法与技巧。

首先导入pandas包和numpy包,这里因为我使用了anaconda环境所以没有必要再进行pip安装了。

然后再来讲解一下csv文件格式。从编码压缩方式来看,csv首先也是一种文本文档,而扩展名“csv”的意思就是这个文本文档里面记录的是以逗号或者其它符号分割的数据。所以打开csv文件当然可以使用python自带的输入输出流+管道读取(最简陋),也可以使用os读取文件。但是pandas为我们提供了一种高级的csv读取方式。使用read_csv()函数,我们就可以省略处理原始文本逗号以及换行的过程,直接得到以“DataFrame”这种数据结构整理的数据。

pandas还有read_table()函数,这个函数同样是处理源数据用的,但是这个函数更适合处理具有一个主键和一个关联值类型的数据。读取出来也是dataframe类型。

另外,read_csv这个函数还可以配合许多其它的参数,来处理各种各样的数据。'seq'参数可以设置分割符,以读取分割符不是逗号的csv文件。chunksize 参数,可以控制分块读取的大小,将变量分别写入内存,当硬盘中数据文件大小超过电脑内存大小时,电脑无法将数据一次全部读入内存,就必须分块处理这些数据。

names参数可以指定表头,而header这个参数可以去除表头,两者合并,即可实现“换表头”的效果。

csv中的纯文本转换为dataframe数据结构之后,我们就可以使用dataframe类的函数对数据做一些简要分析,比如查看数据量的大小,查看每列表头,以及每列的数据类型,还可以检测有没有空数据。

最后,如果对数据有什么修改,比如修改了表头,就可以使用to_csv()函数快速将一个dataframe对象中的数据提取出来,存入csv文件中,以保存处理过的数据。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值