pandas第一单元

最新推荐文章于 2024-07-20 17:12:48 发布

︶ㄣ我18、O_o岁ㄜ

最新推荐文章于 2024-07-20 17:12:48 发布

阅读量71

点赞数

文章标签： pandas python 数据分析

原文链接：https://github.com/datawhalechina/hands-on-data-analysis

版权

pandas第一单元

一、第一单元第一节汇总
二、第一单元第二节汇总
三、第一单元第三节汇总
四、总结与收获

本次学习主要用到两个库pandas库和numpy库

一、第一单元第一节汇总

1.1 读取csv文件 pd.read_csv()

读入csv文件用到了pandas库中的pd.read_csv()，将其赋值于一个变量，这个变量是一个DataFrame对象。
在这里插入图片描述
然后可以对这个对象进行各种操作并进行数据分析。
注意的是，如果文件路径有所不知，可以导入os库，然后用os.getcwd()查看当前工作目录。

1.2 逐块读取数据

当数据量过大时可以设置一个数据模块然后逐块读取。
使用pandas处理文件时，经常会遇到大文件，有时我们只想取其中的一块，这时候需要我们去逐块读取。

结构为：
在这里插入图片描述
运行结果为按照设置的chunksize大小有各个模块。

1.3 改表头

将表头改成中文，方法就是在读csv文件设置对象的时候就对表头值进行相应的修改，结构为：
在这里插入图片描述
运行结果即为对相应的文件的表头值被更改了。

1.4 一些内置的方法

查看数据的基本信息结构为：df.info()，可以看到一些表头值的属性
在这里插入图片描述
查看前n行：df.head(n)
查看后n行：df.tail(n)
最后为保存数据 df.to_csv(‘…’)，即另存的意思

二、第一单元第二节汇总

2.1 区分 DataFrame与Series

pandas有两个基本数据类型，DataFrame和Series
在这里插入图片描述
从运行结果可以看出，它们的区别就是Series是一维的，而DataFrame是二维的。

2.2 针对DataFrame数据类型的操作

这节主要针对DataFrame这种数据类型进行分析：

2.2.1 查看数据每列的名称

其中有查看DataFrame数据每列的名称，结构为：
在这里插入图片描述
运行结果为：

2.2.2 利用中括号法筛出自己需要的数据

二维数据降一维数据，然后筛出自己想要的数据
在这里插入图片描述
后面有删除冗余的列的数据直接del ，还有就是隐藏数据，隐藏数据中用到了drop函数，其中的形参axis有着自己的学问

2.2.3 在中括号中写入表达式筛出自己需要的数据

筛数据也可以在中括号中[ ]写入表达式，例如：
在这里插入图片描述
进行数据的筛选

2.2.4 区分loc与iloc

最后，有一个loc和iloc的区分，它们也是对数据进行相应的筛选。前者的第二个参数为列属性的值，后者第二个参数则为列属性所在的列。最后可以对数据进行相应的筛选
在这里插入图片描述

三、第一单元第三节汇总

3.1 数据排序

本节进行探索性数据分析，自己构建一个DataFrame数据类型进行相应的数据升降序排列，以下为一些排序方法的总结：
按行索引升序排序：frame.sort_index()
按列索引升序排序：frame.sort_index(axis=1)
按列索引降序排序：frame.sort_index(axis=1, ascending=False)
后期有出现综合排序，还需要自己去细细钻研一下。

3.1 加法运算

利用pandas进行数据加法运算，若对应的行和列有相应的数据，则一一对应位置处的数据进行相加，若组合起来的行和列为新的数据则对应的数据为NaN

3.3 其他

后面的为一些组合起来的函数
利用max()函数计算所操作数据的最大值
利用pandas的describe()方法进行数据基本统计信息的查看

四、总结与收获

在本次学习中，主要通过两个库pandas和numpy进行相应的数据分析，我学会了利用pandas读取csv文件并对csv文件中的数据进行相应的操作与保存；然后学习了两个数据类型DataFrame和Series，然后主要针对DataFrame进行相应的分析与学习，学会了根据中括号的形式调取自己所需要的数据；最后进行了实战的学习并收获多多。