python打开各种文件格式_使用python读取数据科学最常用的文件格式(转)

Author:kevinelstri

DateTime:2017/3/13

1、什么是文件格式?

文件格式是在文件中存储信息的一种标准方法。首先,文件格式指定文件是一个二进制或ASCII文件。其次,文件展示了文件的组织形式。例如,逗号分隔值(CSV)文件格式存储在纯文本的表格数据。

image.png

2、为什么数据科学家需要懂得不同的文件格式?

通常,你遇到的文件都取决于你使用的应用。例如,在一个图像处理系统中,你需要将图像文件作为输入输出,所以你会看到一个JPEG,GIF或PNG格式。

作为数据科学家,你需要了解各种文件格式的底层结构以及它们的优缺点等。除非你了解了数据的底层结构,否则你不能够去探索它。而且,有时你需要决定怎么去存储数据。

选择最佳的文本格式来存储数据可以提高你的模型在数据处理中的性能。

3、使用python如何读取不同的文件格式?

3.1 csv

CSV格式属于电子表格文件格式。

那么什么是电子表格文件格式呢?

在电子表格文件格式中,数据存储在单元格中。每个单元格按照行和列结构进行组织。电子表格中的列可以有不同的数据类型。例如,一列可以是字符串类型,日期类型或整数类型。最流行的电子表格文件格式就是CSV格式,xls格式和xlsx格式。

CSV中的每一行代表一个观察,通常称为一条记录。每个记录可以包含一个或多个由逗号分隔的字段。

有时,你可能会看到文件中不使用逗号分隔,但是使用制表符进行分隔,这样的文件格式称为TSV(制表符分隔值)文件格式。

下面是将CSV文件使用Notepad打开的结果:

image.png

import pandas as pd

pf = pd.read_csv('train.csv')

3.2 XLSX

xlsx是微软Excel打开XML文件格式,它也是电子表格文件格式,它是基于XML格式创建的Excel。xlsx数据是在一个表的单元格和列下组织的,每一个xlsx文件可以包含多于一个的表格,因此工作簿可以包含多个表。

下面的图像显示一个“xlsx文件是微软Excel打开:

image.png

在上面的图像中,你可以看到文件中存在

  • 2
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值