Pandas中的数据结构
Series
: 一维数组,类似于Python
中的基本数据结构list
,区别是Series
只允许存储相同的数据类型,这样可以更有效的使用内存,提高运算效率。就像数据库中的列数据;series包含数据跟索引DataFrame
: 二维的表格型数据结构。DataFrame
既有行索引还有列索引,它有一组有序的列,每列既可以是不同类型(数值、字符串、布尔型)的数据,或者可以看做由Series
组成的字典。Panel
:三维的数组,可以理解为DataFrame
的容器。
1、pandas.read_csv函数 用于读取文件
基本参数:
filepath_or_buffer 文件的路径
header 作为每一列的别名(即第一行的值),当文件没有设置列名时:默认值为0:表示使用文件中原来存在的列名,也可能就是第一行的数据;当设置值为None时:表示用【0,1,2....】来作为列名
names 用于结果的列表名称,再输出时自己设定列名,可以用列表的形式来定义,比如names=['population','profite'],当header=None