Author:kevinelstri
DateTime:2017/3/13
1、什么是文件格式?
文件格式是在文件中存储信息的一种标准方法。首先,文件格式指定文件是一个二进制或ASCII文件。其次,文件展示了文件的组织形式。例如,逗号分隔值(CSV)文件格式存储在纯文本的表格数据。
image.png
2、为什么数据科学家需要懂得不同的文件格式?
通常,你遇到的文件都取决于你使用的应用。例如,在一个图像处理系统中,你需要将图像文件作为输入输出,所以你会看到一个JPEG,GIF或PNG格式。
作为数据科学家,你需要了解各种文件格式的底层结构以及它们的优缺点等。除非你了解了数据的底层结构,否则你不能够去探索它。而且,有时你需要决定怎么去存储数据。
选择最佳的文本格式来存储数据可以提高你的模型在数据处理中的性能。
3、使用python如何读取不同的文件格式?
3.1 csv
CSV格式属于电子表格文件格式。
那么什么是电子表格文件格式呢?
在电子表格文件格式中,数据存储在单元格中。每个单元格按照行和列结构进行组织。电子表格中的列可以有不同的数据类型。例如,一列可以是字符串类型,日期类型或整数类型。最流行的电子表格文件格式就是CSV格式,xls格式和xlsx格式。
CSV中的每一行代表一个观察,通常称为一条记录。每个记录可以包含一个或多个由逗号分隔的字段。
有时,你可能会看到文件中不使用逗号分隔,但是使用制表符进行分隔,这样的文件格式称为TSV(制表符分隔值)文件格式。
下面是将CSV文件使用Notepad打开的结果:
image.png
import pandas as pd
pf = pd.read_csv('train.csv')
3.2 XLSX
xlsx是微软Excel打开XML文件格式,它也是电子表格文件格式,它是基于XML格式创建的Excel。xlsx数据是在一个表的单元格和列下组织的,每一个xlsx文件可以包含多于一个的表格,因此工作簿可以包含多个表。
下面的图像显示一个“xlsx文件是微软Excel打开:
image.png
在上面的图像中,你可以看到文件中存在