数据分析第五课:使用pandas预处理数据

合并数据

堆叠合并数据

1、横向表堆叠

在这里插入图片描述
在这里插入图片描述
默认是取合集

2、纵向堆叠

concat函数

在这里插入图片描述
用列名称进行堆叠

append函数

在这里插入图片描述

主键合并数据

主键合并

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

重叠合并数据

combine_first方法

在这里插入图片描述

清洗数据

检测与处理重复值

1、记录重复

方法一:利用list去重,自定义去重函数
方法二:利用集合(set)的元素是唯一的特性去重,如
方法三:利用numpy中的unique函数

dish_set=set(dishes)

常用方法:
pandas的drop_duplicates的去重方法,该方法之对DataFrame或Series有效,不会改变数据源是排列,不止支持单一特征的数据去重,还能根据DataFrame一个或多个特征去重
在这里插入图片描述

2、特征重复

去除连续性特征重复,利用特征间的相似度将两个相似度为1的特征取出一个
pandas相似度计算方法:corr
使用该方法计算时,默认为“person”法,可以通过“method”参数调节,目前还支持“spearman”法和“kendall”法
在这里插入图片描述

检测与处理缺失值

describe方法也可以查找出数值型的缺失情况

利用isnull或notnull找出缺失值
在这里插入图片描述

data.isnull().sum()#统计缺失值个数

检测与处理缺失值

1、删除法

在这里插入图片描述
删除后对原表没有作用

2、替换法

对缺失值进行替换
在这里插入图片描述
在这里插入图片描述

3、插值法

在这里插入图片描述
删除法适合缺失值占比较小
替换法会影响信息量变动
在这里插入图片描述
SciPy库种包括多种数学中的插值拟合法

异常值

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

标准化数据

转化数据

  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值