第五章数据清洗与整理

最新推荐文章于 2023-12-22 03:05:34 发布

头plusy

最新推荐文章于 2023-12-22 03:05:34 发布

阅读量677

点赞数

分类专栏：从零开始学Python数据分析学习笔记

本文链接：https://blog.csdn.net/anchor8yuan/article/details/105195733

版权

本章详细介绍了数据清洗的过程，包括处理缺失值（侦查、删除、填充）、移除重复数据、替换异常值、利用映射转换数据以及检测异常值。此外，还讲解了数据合并与重塑的方法，如merge、concat、combine_first操作，以及字符串处理技巧，包括字符串方法和正则表达式应用。最后，通过Iris数据集提供了一个综合示例，展示了从数据来源到清洗的完整流程。

摘要由CSDN通过智能技术生成

第五章数据清洗与整理

5.1数据清洗

5.1.1处理缺失值

1.侦查缺失值

from pandas import DataFrame
import numpy as np 
df1 = DataFrame([[3,5,3],[1,6,np.nan],
 ['lili',np.nan,'pop'],[np.nan,'a','b']])
>>> df1.info()
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 4 entries, 0 to 3
Data columns (total 3 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   0       3 non-null      object
 1   1       3 non-null      object
 2   2       3 non-null      object
dtypes: object(3)
memory usage: 224.0+ bytes
>>> df1.isnull()
       0      1      2
0  False  False  False
1  False  False   True
2  False   True  False
3   True  False  False
>>> df1.isnull().sum()
0    1
1    1
2    1
dtype: int64
>>> df1.isnull().sum().sum()
3

2.删除缺失值

>>> df1.dropna()
   0  1  2
0  3  5  3
>>> df2[4]=np.nan
>>> df2
   0  1   2   3   4
0  0  1   2   3 NaN
1  4  5   6   7 NaN
2  8  9  10  11 NaN
>>> df2
     0    1    2    3   4
0  0.0  1.0  2.0  3.0 NaN
1  4.0  5.0  6.0  7.0 NaN
2  NaN  NaN  NaN  NaN NaN
>>> df2.dropna(how='all',axis=1)
     0    1    2    3
0  0.0  1.0  2.0  3.0
1  4.0  5.0  6.0  7.0
2  NaN  NaN  NaN  NaN
>>> df2.dropna(how='all')
     0    1    2    3   4
0  0.0  1.0  2.0  3.0 NaN
1  4.0  5.0  6.0  7.0 NaN
>>> df2
     0    1    2    3   4
0  0.0  1.0  2.0  3.0 NaN
1  4.0  5.0  6.0  7.0 NaN
2  NaN  NaN  NaN  NaN NaN

3.填充缺失值

>>> df2.fillna(0)
     0    1    2    3    4
0  0.0  1.0  2.0  3.0  0.0
1  4.0  5.0  6.0  7.0  0.0
2  0.0  0.0  0.0  0.0  0.0
>>> df2
     0    1    2    3   4
0  0.0  1.0  2.0  3.0 NaN
1  4.0  5.0  6.0  7.0 NaN
2  NaN  NaN  NaN  NaN NaN
>>> df2.fillna({
   1:6,3:0})
     0    1    2    3   4
0  0.0  1.0  2.0  3.0 NaN
1  4.0  5.0  6.0  7.0 NaN
2  NaN  6.0  NaN  0.0 NaN
>>> df2.fillna({
   1:6,3:0},inplace=True)
>>> df2
     0    1    2    3   4
0  0.0  1.0  2.0  3.0 NaN
1  4.0  5.0  6.0  7.0 NaN
2  NaN  6.0  NaN  0.0 NaN
>>> df2.fillna(method='ffill')
     0    1    2    3   4
0  0.0  1.0  2.0  3.0 NaN
1  4.0  5.0  6.0  7.0 NaN
2  4.0  6.0  6.0  0.0 NaN
>>> df2
     0    1    2    3   4
0  0.0  1.0  2.0  3.0 NaN
1  4.0  5.0  6.0  7.0 NaN
2  NaN  6.0  NaN  0.0 NaN
>>> df2[0] = df2[0].fillna(df2[0].mean())
>>> df2
     0    1    2    3   4
0  0.0  1.0  2.0  3.0 NaN
1  4.0  5.0  6.0  7.0 NaN
2  2.0  6.0  NaN  0.0 NaN

5.1.2移除重复数据

>>> datac = {
   
...  'name':['张三', '李四', '张三', '小明'],
...  'sex':['female', 'male', 'female', 'male'],
...  'year':[2001, 2002, 2001, 2002],
...  'city':['北京', '上海', '北京', '北京']
...   }
>>> datac
{
   'name': ['张三', '李四', '张三', '小明'], 'sex': ['female', 'male', 'female', 'male'], 'year': [2001, 2002, 2001, 2002],

最低0.47元/天解锁文章

头plusy

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
第五章数据清洗与整理

第五章数据清洗与整理5.1数据清洗5.1.1处理缺失值1.侦查缺失值from pandas import DataFrameimport numpy as np df1 = DataFrame([[3,5,3],[1,6,np.nan], ['lili',np.nan,'pop'],[np.nan,'a','b']])>>> df1.info()<cla...
复制链接

扫一扫