【编程实践】Joyful-Pandas（下）Task01（第六章）：缺失数据

最新推荐文章于 2023-06-09 13:24:39 发布

李洋Brandon

最新推荐文章于 2023-06-09 13:24:39 发布

阅读量619

点赞数

分类专栏： Datawhale python pandas 文章标签： python

本文链接：https://blog.csdn.net/Brandon_Y_Lee/article/details/106928994

版权

【编程实践】Joyful-Pandas（下）Task01（第六章）：缺失数据Datawhale学习要求Nullable类型与NA符号缺失数据的运算与分组填充与剔除插值（interpolation）问题练习缺失数据和文本数据（尤其是混杂性文本）是数据预处理中比较麻烦的类型，本章节聚焦于缺失数据。Nullable类型和String类型可能在未来成为Pandas的主流数据类型。Datawhale学习要求理论部分理解Nullable类型与NA符号掌握缺失值的填充与剔除掌握常见缺失值插值方法练习部

摘要由CSDN通过智能技术生成

缺失数据和文本数据（尤其是混杂性文本）是数据预处理中比较麻烦的类型，本章节聚焦于缺失数据。

Nullable类型和String类型可能在未来成为Pandas的主流数据类型。

Datawhale学习要求

理论部分

理解Nullable类型与NA符号
掌握缺失值的填充与剔除
掌握常见缺失值插值方法

练习部分

两道缺失数据练习题

Nullable类型与NA符号

Pandas 1.0之前的版本：三种缺失符号

缺失符号	np.nan	None	np.NaT
类型	float64	Nonetype	pandas._libs.tslibs.nattype.NaTType
equal的时候是否会包括在内	不包括	包括	不包括
某列出现该值的类型	1.数值型,布尔型统一转换为float64；2.字符型统一转换为O(object类型)	1.None传入数值型自动变换为np.nan；None传入时间型变量自动变换为np.NaT；2.None传入布尔类型，不改变原布尔列表；3.None传入字符型为NoneType	时间型变量类型不改变

** Pandas 1.0之后的版本：Nullable类型与NA符号**
官方鼓励用户使用新的数据类型和缺失类型pd.NA

缺失数据的运算与分组

加号与乘号规则

使用加法时，缺失值为0
使用乘法时，缺失值为1
使用累计函数时，缺失值自动略过

groupby方法中的缺失值

自动忽略为缺失值的组

填充与剔除

fillna方法
dropna方法

插值（interpolation）

线性插值
高级插值方法：样条插值、多项式插值、阿基玛插值等
限制参数

问题

问题一：如何删除缺失值占比超过25%的列？

// 
import pandas as pd
import numpy as np
# 创建一个有不同缺失情况的dataframe对象
df_d = pd.DataFrame({
   'A':[np.nan,np.nan,np.nan,np.nan,np.nan,np.nan],'B':[np.nan,np.nan,np.nan,np.nan,np.nan,2],'C':[np.nan,np.nan,np.nan,np.nan,2,1],'D':[np.nan,np.nan,np.nan,3,2,1],'E':[np.nan,np.nan,4,3,2,1],'F':[np.nan,5,4,3,2,

最低0.47元/天解锁文章

李洋Brandon

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
【编程实践】Joyful-Pandas（下）Task01（第六章）：缺失数据

【编程实践】Joyful-Pandas（下）Task01（第六章）：缺失数据Datawhale学习要求Nullable类型与NA符号缺失数据的运算与分组填充与剔除插值（interpolation）问题练习缺失数据和文本数据（尤其是混杂性文本）是数据预处理中比较麻烦的类型，本章节聚焦于缺失数据。Nullable类型和String类型可能在未来成为Pandas的主流数据类型。Datawhale学习要求理论部分理解Nullable类型与NA符号掌握缺失值的填充与剔除掌握常见缺失值插值方法练习部
复制链接

扫一扫