唐宇迪学习笔记2：Python数据分析处理库——pandas

最新推荐文章于 2024-05-28 10:51:13 发布

小丑呀~

最新推荐文章于 2024-05-28 10:51:13 发布

阅读量1k

点赞数 2

分类专栏： pandas 文章标签： jupyter python

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_40890544/article/details/123444356

版权

pandas 专栏收录该内容

1 篇文章 0 订阅

订阅专栏

目录

一、Pandas工具包使用

二、数据信息读取与展示

.info：返回当前的信息

.index：索引

.coulums ：列名。每列第一个是列名，后面是数据。

.types：数据类型

.value ：打印列名，结构是数组格式。

创建dataframe结构

三、索引方法

Pandas索引结构

bool类型的索引

四、groupby函数使用方法

groupby：统计数据

五、数值运算

最大最小值

相关系数（对角阵，对角线是1）

value_counts()：统计数有多少个

bins：划分情况

六、对象操作

Series结构的增删改查（Series：一列数据）

改操作（.copy防止改错了）

DataFrame结构的增删改查

查操作是类似的

七、merge合并操作

八、pivot数据透视表

精度设置：（默认取6位）

设置一个数据透视表

九、时间操作

.to_datetime()：转换成时间的标准格式

Series()：构建时间序列：

resample：时间重采样

十、apply自定义函数

自定义apply()函数

统计每一列的缺失值：

统计不同的船舱等级

十一、常规操作

sort_values(): 排序

sort_values(by=‘’) ：按照哪个列进行排序

drop_duplications()：去除重复id/去除同类项

replace：替换操作

cut：自定义取数据（对连续值进行离散化）

cut属性值替换

.isnull()：空值判断

.fillna（）：缺值填充（将所有缺失值填充为5）

定位到缺失值，带有缺失值的样本

十二、字符串操作

lower()：小写转换

upper()：大写转换

len()：计算字符的长度

strip()：去除空格（lstrip()：去左空格；rstrip()：去右空格）

replace()：替换/字符数据的预处理

split()：切分

contains()：判断是否包含尾缀/前缀/数字/...

get_dummies()：经常在关联分析时使用

pandas工具包：把numpy中很多命令整合在了一起。

一、Pandas工具包使用

df：DataFrame (矩阵。行：样本；列：特征)

.head()：可以读取前几条数据,指定前几条都可以（默认前五条）

.tail()：同.head()，可以读取后几条数据。

帮助文档：

二、数据信息读取与展示

.info：返回当前的信息

.index：索引

.coulums ：列名。每列第一个是列名，后面是数据。

.types：数据类型

.value ：打印列名，结构是数组格式。

创建dataframe结构

指定一个字典结构，key：当前列名；value：对应key的值，是list结构。

注：格式对应起来。空值：np.nan

取指定的数据：

series:dataframe中的一行/列

索引我们可以自己指定

未指定前：

指定后：

通过名字定位：

.describe()：可以得到数据的基本统计特性（只有数值数据计算得到的结果。包括计数、均值、方差等）

三、索引方法

Pandas索引结构

loc 用label来去定位

可以定位人名、非位置的时候使用loc。传入的是描述。

iloc 用position来去定位

传入的是值。

bool类型的索引

用ture或这false来取数

定位到ture的值

找到男性：

性别为男性的平均年龄：

四、groupby函数使用方法

eg：找到所有A的data之和

python

groupby

取均值

groupby：统计数据

统计数据文件中男女的平均年龄

统计数据文件中不同性别获救的可能性

五、数值运算

与numpy中本质上没有区别。

求和

平均数

最大最小值

二元统计

协方差

相关系数（对角阵，对角线是1）

value_counts()：统计数有多少个

（升序：ascending=true；降序：ascending=false）

bins：划分情况

六、对象操作

Series结构的增删改查（Series：一列数据）

查操作：

改操作（.copy防止改错了）

增操作

删操作

DataFrame结构的增删改查

查操作是类似的

改操作

增操作

删操作

七、merge合并操作

合并：

默认情况下，会把合并两个表中共有的传入。

为了不丢失数据，（how='outer' ：显示所有；how=‘left’：显示左表；how=‘right’：显示右表）

八、pivot数据透视表

显示设置

pandas API文档：pandas.set_option — pandas 1.4.1 documentation

美观展示

精度设置：（默认取6位）

pivot操作

设置一个数据透视表

每一项花费在每个月的平均是多少，使用pivot（index：想统计的指标；columns：想通知指标的属性；values：按着什么方式统计）

求和：

统计不同性别在不同船舱等级上的花费

求最大：

把年龄小于18的赋值给Underaged

九、时间操作

.to_datetime()：转换成时间的标准格式

Series()：构建时间序列：

通过时间指出当前数据：

取月份：

resample：时间重采样

画图操作

十、apply自定义函数

自定义apply()函数

优点：可以自己指定当前对那哪个样本执行什么操作。

统计每一列的缺失值：

统计不同的船舱等级

判断年龄

十一、常规操作

sort_values(): 排序

sort_values(by=‘’) ：按照哪个列进行排序

drop_duplications()：去除重复id/去除同类项

replace：替换操作

cut：自定义取数据（对连续值进行离散化）

cut属性值替换

.isnull()：空值判断

.fillna（）：缺值填充（将所有缺失值填充为5）

定位到缺失值，带有缺失值的样本

十二、字符串操作

lower()：小写转换

upper()：大写转换

len()：计算字符的长度

strip()：去除空格（lstrip()：去左空格；rstrip()：去右空格）

replace()：替换/字符数据的预处理

split()：切分

contains()：判断是否包含尾缀/前缀/数字/...

get_dummies()：经常在关联分析时使用

关注

2
点赞
踩
14

收藏

觉得还不错? 一键收藏
1
评论
唐宇迪学习笔记2：Python数据分析处理库——pandas

pandas工具包：把numpy中很多命令整合在了一起。一、Pandas工具包使用df：DataFrame (矩阵。行：样本；列：特征).head()：可以读取前几条数据,指定前几条都可以（默认前五条）.tail()：同.head()，可以读取后几条数据。帮助文档：二、数据信息读取与展示.info：返回当前的信息.index：索引.coulums ：列名。第一行是类名，后面是数据。.types：数据类型.value ：打印列名，结构是数组格...
复制链接

扫一扫

专栏目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。