这几天在阅读python的pandas库。现在还在阅读第二章的内容,在第二章中又一个实例,有一个关于电影数据的数据集,然后,我们对它做一些简单的分析,做个今天学习的总结。
Part 1 读取数据
首先使用的是pandas的read_table函数,函数主要又以下几个参数:
filepath_or_buffer:该参数主要是要读取数据集的路径
sep : 该参数主要是用来在读取文件时候,遇到分隔符时读取不同的数据。
headers:在pandas的文档中的定义如下:
一般使用的时候都是将这个参数设为None,如果把它设为0的时候,它就会从第二个数据开始读入。所以传入一个整数n的时候,我一般是理解成它是都从n+2开始读取数据(这里没有考虑数据集刚开始有无关元素的情况)。传入一个list的时候没有试过,这里就不敢乱说。
names: 这个参数主要是一个list用来存储列对应的名字。
engine : 这个参数书中是没有设定的,但是编译的过程老是有个warning。用于设定使用那个解析器引擎。
读取文件的使用使用到的主要是这样几个参数。
Part 2 两个Data Frame进行merge操作
关于两项数据的合并操作感觉