数据整合和数据清洗

最新推荐文章于 2024-05-02 11:19:24 发布

花纵酒

最新推荐文章于 2024-05-02 11:19:24 发布

阅读量1.7k

点赞数

分类专栏： python之机器学习文章标签： python

本文链接：https://blog.csdn.net/lm19770429/article/details/107320503

版权

python之机器学习专栏收录该内容

33 篇文章 1 订阅

订阅专栏

发现数据问题类型

脏数据或数据不正确
• 比如 ‘0’ 代表真实的0，还是代表缺失；Age = -2003
• 数据不一致
比如收入单位是万元，利润单位是元，或者一个单位是美元，一个是人民币
• 数据重复
• 缺失值
• 离群值

数据探索识别噪声

利用图形可以直观快速地对数据进行初步分析：
• 直方图、饼图、条形图、折线图、散点图等

错误值处理

发现错误值只能通过描述性统计的方法，逐一核实每个变量是否有问题，比如 ‘0’ 代表真实的0，
还是代表缺失？
外呼营销数据（ teleco_camp_orig）的当地人均收入（ AvgIncome），出现了大量0值，我们有理由怀疑是错误值。可以使用缺失值替代，然后再用缺失值填补的方法处理。

处理错误值
• 修正
• 补充正确信息
• 对照其他信息源
• 视为空值
• 删除
• 删除记录
• 删除字段

缺失值处理

处理原则

处理缺失值示例

噪声值处理

单变量离群值发现

盖帽法处理

分箱法

# coding: utf-8

# # 第5章数据整合和数据清洗

# ## 5.4 数据清洗

# 发现数据问题类型

# In[2]:

import pandas as pd
import os
import numpy as np
os.chdir(r"D:\Python_Training\script_Python\5Preprocessing")
camp = pd.read_csv('data/teleco_camp_orig.csv')
camp.head()

# In[ ]:

# - 脏数据或数据不正确

# In[ ]:

import matplotlib.pyplot as plt
#%%
plt.hist(camp['AvgIncome'], bins=20, normed=True)#查看分布情况
camp['AvgIncome'].describe(include='all')
# In[ ]:
plt.hist(camp['AvgHomeValue'], bins=20, normed=True)#查看分布情况
camp['AvgHomeValue'].describe(include='all')
# In[ ]:

#这里的0值应该是缺失值
camp['AvgIncome']=camp['AvgIncome'].replace({0: np.NaN})
#像这种外部获取的数据要比较小心，经常出现意义不清晰或这错误值。AvgHomeValue也有这种情况
plt.hist(camp['AvgIncome'], bins=20, normed=True,range=(camp.AvgIncome.min(),camp.AvgIncome.max()))#由于数据中存在缺失值,需要指定绘图的值域
camp['AvgIncome'].describe(include='all')
# In[ ]:
camp['AvgHomeValue']=camp['AvgHomeValue'].replace({0: np.NaN})
plt.hist(camp['AvgHomeValue'], bins=20, normed=True,range=(camp.AvgHomeValue.min(),camp.AvgHomeValue.max()))#由于数据中存在缺失值,需要指定绘图的值域
camp['AvgHomeValue'].describe(include='all')

# In[ ]:
# - 数据不一致-
# 这个问题需要详细的结合描述统计进行变量说明核对

# - 数据重复

# In[ ]:

camp['dup'] = camp.duplicated() # 生成重复标识变量
camp.dup.head()

# In[ ]:

#本数据没有重复记录，此处只是示例
camp_dup = camp[camp['dup'] == True] # 把有重复的数据保存出来，以备核查
camp_nodup = camp[camp['dup'] == False] # 注意与camp.drop_duplicates()的区别
camp_nodup.head()

# In[ ]:

camp['dup1'] = camp['ID'].duplicated() # 按照主键进行重复记录标识
# accepts['fico_score'].duplicated() # 没有实际意义

# * 缺失值处理

# In[ ]:

camp.describe()
#如果count数量少于样本量，说明存在缺失
#缺失最多的两个变量是Age和AvgIncome,缺失了大概20%。

# In[ ]:

vmean = camp['Age'].mean(axis=0, skipna=True)
camp['Age_empflag'] = camp['Age'].isnull()
camp['Age']= camp['Age'].fillna(vmean)
camp['Age'].describe()

# In[ ]:

vmean = camp['AvgHomeValue'].mean(axis=0, skipna=True)
camp['AvgHomeValue_empflag'] = camp['AvgHomeValue'].isnull()
camp['AvgHomeValue']= camp['AvgHomeValue'].fillna(vmean)
camp['AvgHomeValue'].describe()

# In[ ]:

vmean = camp['AvgIncome'].mean(axis=0, skipna=True)
camp['AvgIncome_empflag'] = camp['AvgIncome'].isnull()
camp['AvgIncome']= camp['AvgIncome'].fillna(vmean)
camp['AvgIncome'].describe()

# - 其他有缺失变量请自行填补，找到一个有缺失的分类变量，使用众数进行填补
# - 多重插补：sklearn.preprocessing.Imputer仅可用于填补均值、中位数、众数，多重插补可考虑使用Orange、impute、Theano等包
# - 多重插补的处理有两个要点：1、被解释变量有缺失值的观测不能填补，只能删除；2、只对放入模型的解释变量进行插补。

# * 噪声值处理
# - 盖帽法

# In[ ]:

def blk(floor, root): # 'blk' will return a function
    def f(x):
        if x < floor:
            x = floor
        elif x > root:
            x = root
        return x
    return f

q1 = camp['Age'].quantile(0.01) # 计算百分位数
q99 = camp['Age'].quantile(0.99)
blk_tot = blk(floor=q1, root=q99) # 'blk_tot' is a function
camp['Age']= camp['Age'].map(blk_tot)
camp['Age'].describe()

# - 分箱（等深，等宽）
# - 分箱法——等宽分箱

# In[ ]:

camp['Age_group1'] = pd.qcut( camp['Age'], 4) # 这里以age_oldest_tr字段等宽分为4段
camp.Age_group1.head()

# - 分箱法——等深分箱

# In[ ]:

camp['Age_group2'] = pd.cut( camp['Age'], 4) # 这里以age_oldest_tr字段等宽分为4段
camp.Age_group2.head()

# In[ ]:

camp.to_csv('tele_camp_ok.csv')

# In[ ]:

花纵酒

关注

0
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
数据整合和数据清洗

发现数据问题类型脏数据或数据不正确• 比如 ‘0’ 代表真实的0，还是代表缺失；Age = -2003• 数据不一致比如收入单位是万元，利润单位是元，或者一个单位是美元，一个是人民币• 数据重复• 缺失值• 离群值数据探索识别噪声利用图形可以直观快速地对数据进行初步分析：• 直方图、饼图、条形图、折线图、散点图等错误值处理发现错误值只能通过描述性统计的方法，逐一核实每个变量是否有问题，比如 ‘0’ 代表真实的0，还是代表缺失？外呼营销数据（ teleco_camp.
复制链接

扫一扫