python数据分析总结

本文详细介绍了Python进行数据分析时的数据加载、存储和文件格式处理,涵盖了读写文本、JSON、XML、二进制(HDF5)、Excel文件以及Web API和数据库交互的方法,特别强调了pandas库在处理各种数据格式中的应用。
摘要由CSDN通过智能技术生成

利用python进行数据分析(其三)

数据加载、存储与文件格式

输入输出通常可以划分为几个大类:读取文本文件和其他更高效的磁盘存储格式,加载数据库中的数据,利用Web API的操作网络资源。

读写文本格式的数据

pandas提供一些用于表格型数据读取为DataFrame对象的函数,其中对其进行总结为以下:
在这里插入图片描述
将文本数据转换为DataFrame这些函数的选项可以划分为以下几个大类:

  1. 索引:将一个或多个列当做返回的DataFrame处理,以及是否从文件、用户获
    取列名。
  2. 类型推断和数据转换:包括用户定义值的转换、和自定义的缺失值标记列表
    等。
  3. 日期解析:包括组合功能,比如将分散在多个列中的日期时间信息组合成结果
    中的单个列。
  4. 迭代:支持对大文件进行逐块迭代。
  5. 不规整数据问题:跳过一些行、页脚、注释或其他一些不重要的东西(比如由
    成千上万个逗号隔开的数值数据)

其中对pandas.read_csv 和pandas.read_table列出常用选项:
在这里插入图片描述
在这里插入图片描述在这里插入图片描述

逐块读取文本文件

如果只想读取几行(避免读取整个文件),通过nrows进行指定即可:

In [36]: pd.read_csv('examples/ex6.csv', nrows=5)
Out[36]:
one two three four key
0 0.467976 -0.038649 -0.295344 -1.824726 L
1 -0.358893 1.404453 0.704965 -0.200638 B
2 -0.501840 0.659254 -0.421691 -0.057688 G
3 0.204886 1.074134 1.388361 -0.982404 R
4 0.354628 -0.133116 0.283763 -0.837063 Q

要逐块读取文件,可以指定chunksize(行数):

In [874]: chunker = pd.read_csv('ch06/ex6.csv', chunksize=1000)
In [875]: chunker
Out[875]: <pandas.io.parsers.TextParser at 0x8398150>
chunker = pd.read_csv('examples/ex6.csv', chunksize=1000)
tot = pd.Series([])
for piece in chunker:
tot = tot.add(piece['key'].value_counts(), fill_value=0)
tot = tot.sort_values(a
  • 0
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值