pandas是一个高效的数据分析工具。基于其高度抽象的数据结构DataFrame(点击这里了解DataFrame数据结构),几乎可以对数据进行任何你想要的操作。
由于现实世界中数据源的格式非常多,pandas也支持了不同数据格式的导入方法,本文介绍pandas如何从csv文件中导入数据。
数据导入到pandas
从上图可以看出,我们要做的工作就是把存储在csv格式中的数据读入并转换成DataFrame格式。
pandas提供了一个非常简单的api函数来实现这个功能:read_csv()。
1. 通过read_csv接口读入csv文件中的数据
下面是一个简单的示例:
import pandas as pd
CSV_FILE_PATH = './test.csv'
df = pd.read_csv(CSV_FILE_PATH)
print(df.head(5))
只要简单地指定csv文件的路径,便可以得到DataFrame格式的数据df。对于理想情况下的数据,导入过程就是这么简单!
下面考虑这种情况:假设csv文件头部有几个无效行,那么打印出来的结果可能如下所示:
1 2 3 4
0 datetime host hit volume
1 2018-07-24 09:00:00 weibo.com 20 1020
2 2018-07-25 09:00:00 qq.com no 20 1028
3 2018-07-26 19:00:00 sina.com 25 1181
4 2018-07-27 21