1、读入文件
读入csv文件的方式有两种,一种是pd.DataFrame.from_csv(),另一种是pd.read_csv()。
两种读入csv文件的方式本身没有实质性的区别,二者都基于相同的函数功能实现,但是有一些参数的默认值不同。
推荐使用的是pd.read_csv,pd.DataFrame.from_csv存在仅仅是因为历史原因并(保持对之前项目的支持),所以现在官方准备慢慢停止对pd.DataFrame.from_csv的支持,所有新的属性值只会在pd.read_scv里面添加。
2、切割dataframe
对于dataframe的切割有两种方式:
第一种是通过label进行切割,当通过pd.read_csv读入数据文件的时候要注意一点,就是这样读入的csv文件会自动填补一行int作为index,这样只能通过数量进行切割,实际操作的时候会很不方便(我们会想要使用某些标签的属性进行切割,例如将时间设置为index的时候,我们将数据按照时间的升序排列,可以截取出一段时间的数据),这时我们可以使用df.set_index(‘index’, inplace=True) 将我们想要的属性值设置为index。
切割的语法是df.loc[‘index1’:‘index2’]
注意这样是返回一个新的series,不会对原dadaframe进行操作
第二种是通过position进行切割,使用iloc
3、获取index和column
df.index和df.column可以获得index和column的值,通过下标的形式可以访问具体的值
4、选择特定的属性
注意当选择一个属性列的时候,用一对方框号返回一个series,当同时选择多个属性列的时候,要用两对方括号来返回一个dataframe
df[‘column1’]
df[[‘column1’, ‘column2’]]