CSV(Comma-Separated Values,逗号分隔值,有时也称为字符分隔值,因为分隔字符也可以不是逗号)文件以纯文本形式存储表格数据(数字和文本)。CSV是一种通用的、相对简单的文件格式,被用户、商业和科学领域广泛应用。Pandas可以很方便地处理CSV文件。
Pandas在读取CSV文件时通过read_csv函数读取,读取CSV文件时指定的分隔符默认为逗号,代码如下。注意“CSV文件的分隔符”和“我们读取CSV文件时指定的分隔符”一定要一致。Pandas的head(n)方法用于读取前面的n行,如果不填参数n,则默认返回5行。tail(n)方法用于读取尾部的n行,如果不填参数n,则则默认返回5行。
import pandas as pd
df = pd.read_csv('nba.csv',sep=',')
print(df.head())
print(df.tail())
运行结果如图3-7所示。
Pandas的info()方法返回表格的一些基本信息,代码如下。在输出结果中,non-null为非空数据,可以看到这些信息总共458行,College字段的空值最多。
import pandas as pd
df = pd.read_csv('nba.csv')
print(df.info())
运行结果如图3-8所示。
我们也可以使用 to_csv()方法将DataFrame 存储为CSV文件,代码如下:
import pandas as pd
#三个字段 name、site和age
nme = ["Google", "Runoob", "Taobao", "Wiki"]
st = ["www.google.com", "www.runoob.com", "www.taobao.com", "www.wikipedia.org"]
ag = [90, 40, 80, 98]
#字典
dict = {'name': nme, 'site': st, 'age': ag}
df = pd.DataFrame(dict)
#保存dataframe
df.to_csv('site.csv')
df2 = pd.read_csv('site.csv')
print(df2)
运行结果如图3-9所示。
还要注意Pandas的to_string()用于返回 DataFrame 类型的数据,如果不使用该函数,则直接print(df)输出结果为数据的前面 5 行和末尾 5 行,中间部分以…代替。
本文节选自《PyTorch深度学习与企业级项目实战》,获出版社和作者授权发布。