数据预处理--01 缺失值处理\异常值处理_完成数据预处理,处理缺失值和异常值。 (2)分析各种房源的占比情况。 (3)统计各小-CSDN博客

本文链接：https://blog.csdn.net/YEPAO01/article/details/96108141

本文探讨了数据预处理中的关键步骤——缺失值和异常值处理。介绍了如何通过`.isnull()`和`.notnull()`判断缺失值，使用`.dropna()`删除，用`.fillna()`和`.replace()`填充，以及多种插补方法。异常值分析涉及3σ原则和箱型图分析，提供了异常值的识别和处理方法。

摘要由CSDN通过智能技术生成

文章目录

数据预处理

数据预处理

数据常见的预处理方法（缺失值处理, 异常值剔除，归一化，离散化等）
这一篇文章主要介绍缺失值处理\异常值处理主要是因为他们有比较相似的处理流程.

缺失值处理

包括记录缺失\字段信息缺失, 对数据分析有较大的影响, 导致不确定性增加.
选用哪种方法需要较多的实践经验.
缺失值处理方法:
删除记录\数据插补\不处理

01 判定是否有缺失值 .isnull() .notnull()

s = pd.Series([12,33,45,23,np.nan,np.nan,66,54,np.nan,99])
df = pd.DataFrame({
   'value1':[12,33,45,23,np.nan,np.nan,66,54,np.nan,99,190],
                  'value2':['a','b','c','d','e',np.nan,np.nan,'f','g',np.nan,'g']})
# 判定是否有缺失值, 返回True  False
print(s.isnull())
print(df.isnull())
print(df["value2"].isnull())

如果要知道有多少条数据是有null值的
df["value2"].isnull().sum()  返回True的求和
如果要查询所有列的缺失值情况
df.isnull().sum() 会得到每一列缺失值的总数

在这里插入图片描述

02 筛选非缺失值

# 查看缺失项  意义不大
print(df[df["value1"].isnull()])

# 筛选非缺失值 用的比较多
print(df[df["value1"].notnull()])
print(df[df["value1"].isnull()==False])

在这里插入图片描述

03 删除缺失值 dropna

可用于Series DataFrame, 存在inplace参数, 为True的话, 改变自身值.

s = pd.Series([12,33,45,23,np.nan,np.nan,66,54,np.nan,99])
df = pd.DataFrame({
   'value1':[12,33,45,23,np.nan,np.nan,66,54,np.nan,99,190],
                  'value2':