4.pandas数据预处理（完）（数据清洗：重复值、异常值、缺失值；标准化、哑变量、离散化、无监督分箱）

最新推荐文章于 2024-06-12 20:16:21 发布

贫僧不懂

最新推荐文章于 2024-06-12 20:16:21 发布

阅读量9.1k

点赞数 20

分类专栏： python数据分析与应用文章标签：数据清洗、去重哑变量处理缺失值插补异常值检测数据标准化

本文链接：https://blog.csdn.net/Monk_donot_know/article/details/86479176

版权

笔记说明：本文是我的学习笔记，大部分内容整理自黄红梅,张良均等.Python数据分析与应用[M].北京:人民邮电出版社,2018：133-163. 还有部分片断知识来自网络搜索补充。

0.数据来源

来源于这本书，黄红梅,张良均等.Python数据分析与应用[M].北京:人民邮电出版社,2018，的第五章附带数据。
CSDN的数据不可以免费共享，至少要一个金币，有能力的就去下载一下数据下载链接CSDN数据。不方便的，在底下头评论留言，留下邮箱号，我看到之后就会把数据发给你，或者你可以在这本书的出版社网站人民邮电出版社教育社区或者“泰迪杯数据挖掘比赛”泰迪杯数瑞思的网站上找这本书的附带资源，都是免费下载的。

0.1说明

这本书吧，第一部分是pandas和数据库MySQL的对接处理.sql数据。一般的公司的话，有专门的做数据分析的小组或者部门的，需要什么数据跟他们提需求让他们获取，拿.csv就好了。所以我就跳过了sql里面的inner join\outer join\主键合并。我的笔记直接是读取csv数据。
喔还有就是，做这行的话，sql是基础技能，一定要会基础的取数！

1.清洗数据

1.1检测与处理重复值

1.1.1记录重复

import pandas as pd
detail=pd.read_csv("D:\\codes\\python\\data\\detail.csv",  
                   index_col=0,encoding='gbk')

#方法一：定义去重函数
def delrep(list1):
    list2=[]
    for i in list1:
        if i in list1:
            if i not in list2:
                list2.append(i)
    return list2

##去重
dishes=list(detail['dishes_name'])
print('去重前菜品总数是：',len(dishes))
dish=delrep(dishes)
print('方法一去重后数据总数是：',len(dish))

#方法二：利用集合唯一性
print('去重前菜品总数为：',len(dishes))
dish_set=set(dishes)
print(len(dish_set))

这两种方法，区别在，set会将数据顺序打乱。

#方法三：.drop_duplicates
pd.DataFrame(series).drop_duplicates(self,subset=None,keep='first',  
            inplace=False)

参数名字	说明
subset	接收string或sequence，表示进行去重的列，默认none，全部列
keep	接收string，表示重复时保留第几个数据
keep	first：保留第一个；last：最后一个；false：只要有重复就都不保留。默认first
inplace	接收boolean,表示是否在原表上进行操作，默认false

dishes_name=detail['dishes_name'].drop_duplicates()
print(len(dishes_name))

1.1.2特征重复

这里的重复是指，特征之间的相似度=1！所以可以作为特征工程海筛特征的一步！
method参数可以是：spearman,person,kendall
注意这个不能计算分类变量的相似度。

corrdet=detail[['counts','amounts']].corr(method='spearman')
print(corrdet)

corrdet1=detail[['dishes_name','counts','amounts']].corr(method='pearson')
print(corrdet1)

分类变量的话，可以自己写一个判断特征矩阵是否完全相同的函数

1.2检测与处理缺失值

print('缺失值数目是：'，detail.isnull().sum())
print(detail,notnull().sum())

1.2.1删除法

dropna(self, axis=0, how='any', thresh=None,   
subset=None, inplace=False)

参数	说明
asix	0/1,0是对列操作，删除记录行；1是删除列。
how	接收string，表示删除的形式，any表示只要有缺失值就会被删除，all表示当且仅当全部为缺失值时才会执行删除操作，默认any
subset	接收array，表示进行去重的行列。默认是none，表示所有行列
inplace	接收Boolean，表示是否在原表上进行操作，默认是false

print('删除之前',detail,shape)
print('之后',detail.dropna(axis=1).shape)

1.2.2替换法

pd.DataFrame.fillna(self, value=None, method=None, axis=None,  
inplace=False, limit=None, downcast=None, **kwargs)

参数	说明
value	接收scalar，dict，series，dataframe，表示用来替换缺失值，无默认
method	接收待定string。backfill或bfill表示使用下一个非缺失值来填补空缺；pad或ffill表示使用上一个非缺失值来填补，默认none
axis	轴向。1为“跨列！”这个词解释很透彻
inplace	接收Boolean，表示是否在原表上操作，默认False
limit	接收int，表示填补缺失值个数上限，默认none

detail=detail.fillna(777)
print(detail.isnull().sum())

1.2.3插值法

常用的插补法有：线性插补、多项式插补（拉格朗和牛顿）、样条插值
这里使用的是scipy包的interpolate模块

还有这个在图像领域常用的插值法是重心坐标插值，BarycentricInterpolator

from scipy.interpolate import interp1d
import numpy as np
x=np.array([1,2,3,<

最低0.47元/天解锁文章

贫僧不懂

关注

20
点赞
踩
160

收藏

觉得还不错? 一键收藏
12
评论
4.pandas数据预处理（完）（数据清洗：重复值、异常值、缺失值；标准化、哑变量、离散化、无监督分箱）

整理完了。附带数据、代码、结果。
复制链接

扫一扫

专栏目录