pandas第一单元
本次学习主要用到两个库pandas库和numpy库
一、第一单元第一节汇总
1.1 读取csv文件 pd.read_csv()
读入csv文件用到了pandas库中的pd.read_csv(),将其赋值于一个变量,这个变量是一个DataFrame对象。
然后可以对这个对象进行各种操作并进行数据分析。
注意的是,如果文件路径有所不知,可以导入os库,然后用os.getcwd()查看当前工作目录。
1.2 逐块读取数据
当数据量过大时可以设置一个数据模块然后逐块读取。
使用pandas处理文件时,经常会遇到大文件,有时我们只想取其中的一块,这时候需要我们去逐块读取。
结构为:
运行结果为按照设置的chunksize大小有各个模块。
1.3 改表头
将表头改成中文,方法就是在读csv文件设置对象的时候就对表头值进行相应的修改,结构为:
运行结果即为对相应的文件的表头值被更改了。
1.4 一些内置的方法
查看数据的基本信息结构为:df.info(),可以看到一些表头值的属性
查看前n行:df.head(n)
查看后n行:df.tail(n)
最后为保存数据 df.to_csv(‘…’),即另存的意思
二、第一单元第二节汇总
2.1 区分 DataFrame与Series
pandas有两个基本数据类型,DataFrame和Series
从运行结果可以看出,它们的区别就是Series是一维的,而DataFrame是二维的。
2.2 针对DataFrame数据类型的操作
这节主要针对DataFrame这种数据类型进行分析:
2.2.1 查看数据每列的名称
其中有查看DataFrame数据每列的名称,结构为:
运行结果为:
2.2.2 利用中括号法筛出自己需要的数据
二维数据降一维数据,然后筛出自己想要的数据
后面有删除冗余的列的数据 直接del ,还有就是隐藏数据,隐藏数据中用到了drop函数,其中的形参axis有着自己的学问
2.2.3 在中括号中写入表达式筛出自己需要的数据
筛数据也可以在中括号中[ ]写入表达式,例如:
进行数据的筛选
2.2.4 区分loc与iloc
最后,有一个loc和iloc的区分,它们也是对数据进行相应的筛选。前者的第二个参数为列属性的值,后者第二个参数则为列属性所在的列。最后可以对数据进行相应的筛选
三、第一单元第三节汇总
3.1 数据排序
本节进行探索性数据分析,自己构建一个DataFrame数据类型进行相应的数据升降序排列,以下为一些排序方法的总结:
按行索引升序排序:frame.sort_index()
按列索引升序排序:frame.sort_index(axis=1)
按列索引降序排序:frame.sort_index(axis=1, ascending=False)
后期有出现综合排序,还需要自己去细细钻研一下。
3.1 加法运算
利用pandas进行数据加法运算,若对应的行和列有相应的数据,则一一对应位置处的数据进行相加,若组合起来的行和列为新的数据则对应的数据为NaN
3.3 其他
后面的为一些组合起来的函数
利用max()函数计算所操作数据的最大值
利用pandas的describe()方法进行数据基本统计信息的查看
四、总结与收获
在本次学习中,主要通过两个库pandas和numpy进行相应的数据分析,我学会了利用pandas读取csv文件并对csv文件中的数据进行相应的操作与保存;然后学习了两个数据类型DataFrame和Series,然后主要针对DataFrame进行相应的分析与学习,学会了根据中括号的形式调取自己所需要的数据;最后进行了实战的学习并收获多多。