《利用Python进行数据分析》学习笔记 第6章 数据加载、存储与文件格式

第6章 数据加载、存储与文件格式

6.1 读写文本格式的数据 

  • 逐块读取文本文件

若想读取几行(避免读取整个文件),通过nrows进行指定即可。

要逐块读取文件,可以指定chunksize(行数)。

  • 将数据写出到文本格式

利用DataFrame的to_csv方法,可以将数据写到一个以都好分隔的文件中。 

  • 处理分隔符格式

对于任何单字符分隔符文件,可以直接使用Python内置的csv模块。将任意已打开的文件或文件型的对象传给csv.reader,对这个reader进行迭代将会为每行产生一个元组(并移除了所有的引号)。

zip(*values)将行转置为列,创建数据列的字典。

  • JSON数据

JSON(JavaScript Object Notation的简称)已经成为通过HTTP请求在Web浏览器和其他应用程序之间发送数据的标准格式之一。它是一种比表格型文本格式(如CSV)灵活得多的数据格式。

json.dumps则将Python对象转换成JSON格式:asjson = json.dump(result)

pandas.read_json可以自动将特别格式的JSON数据集转换为Series或DataFrame。

  • XML和HTML:Web信息收集

pandas有一个内置的功能,read_html,它可以使用lxml和Beautiful Soup自动将HTML文件中的表格解析为DataFrame对象。

6.2 二进制数据格式

实现数据的高效二进制格式存储最简单的办法之一是使用Python内置的pickle序列化。pandas对象都有一个用于将数据以pickle格式保存到磁盘上的to_pickle方法。

  • 读取Microsoft Excel文件

pandas的ExcelFile类或pandas.read_excel函数支持读取存储在Excel 2003(或更高版本)中的表格型数据。这两个工具分别使用扩展包xlrd和openpyxl读取XLS和XLSX文件。

存储在表单中的数据可以read_excel读取到DataFrame

如果要将pandas数据写入为Excel格式,必须首先创建一个ExcelWriter,然后使用pandas对象的to_excel方法将数据写入到其中。

6.3 Web APIs交互

网站有一些通过JSON或其他格式提供数据的公开API。通过Python访问这些API有一个简单易用的办法是requests包。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值