一、导读
本篇博客主要介绍pandas读取数据方法中的常用参数
二、read_csv()常用参数的使用
1、正常读取数据:
2、header参数:对表头进行处理
(1)header=none
会给数据表设置一个默认的表头,从数字0开始:
(2)header=0
会把数据表中索引为0的那一行(即第一行)的内容作为表头
(3)header=1
会把数据表中索引为1的那一行(即第二行)的内容作为表头
(3)header=[0,1]
会把数据表前两行的内容作为表头
3、names参数:重新设置表头
(1)names=range(19)
将数据表的表头设置为数字0-18,共19个数字
(2)names=[‘a’,‘b’,‘c’,‘d’,‘e’,‘f’,‘g’]
将数据表的表头设置为字母a、b、c、d、e、f、g
4、index_col参数:把数据表其中一列数据当作索引
(1)index_col=0:
把数据表的第一列数据作为索引
(2)index_col=‘order_id’:
把字段名为“ order_id”的那一列数据作为索引:
5、usecol参数:可以选择展示哪几列数据
(1) usecols=[‘order_id’,‘dishes_name’,‘counts’]:
展示 order_id、dishes_name、counts 这三列数据:
(2) usecols=[0,1,3]:
展示第1、2、4列的数据
6、chunksize参数:对数据进行分段读取
(1) chunksize=200
- 即每次读取200条数据,第一次读的是前200条数据,索引号为0-199
- 若总共有1000条数据,则可以读取5次(迭代5次)
再次运行时,读取的是接下来的200条数据:
(2)将每次读取的数据存到列表中
结果:
7、iterator参数:对数据进行分段读取
使用iterator参数进行数据的分段读取
结果: