5.1 合并数据
5.1.1 堆叠合并数据
1.横向堆叠:concat函数,axis=1
2.纵向堆叠:concat函数,axis=0 或 append函数
5.1.2 主键合并数据:merge函数 和 join方法
5.1.3 重叠合并数据:combine_first方法
5.1.4 任务实现
5.2 清洗数据
5.2.1 检测与处理重复值
1.记录重复:list、set、drop_duplicates
2.特征重复
(1)求相似度矩阵:corr,方法:pearson(默认),kendall,spearman
(2)先使用DataFrame.equals方法,再通过遍历的方式筛选出完全重复的特诊并删掉
5.2.2 检测与处理缺失值
- 检测:isnull 和 notnull
- 处理:删除法dropna,替换法fillna,插值法interpolate
5.2.3 检测与处理异常值:3sigma原则、箱线图分析
5.2.4 任务实现
5.3 标准化数据
5.3.1 离差标准化数据
最简单,标准化后的数据限定在[0,1]区间内,受数据分布影响较大
X
∗
=
(
X
−
m
i
n
)
/
(
m
a
x
−
m
i
n
)
X^* = (X-min)/(max-min)
X∗=(X−min)/(max−min)
5.3.2 标准差标准化数据
应用最广泛,受数据分布影响较小,标准化后的数据均值为0,标准差为1
X
∗
=
(
X
−
X
‾
)
/
σ
X^*=(X-\overline{X})/\sigma
X∗=(X−X)/σ
5.3.3 小数定标标准化数据
适用程度适中,受数据分布影响不大
X
∗
=
X
/
1
0
k
X^*=X/10^k
X∗=X/10k
5.3.4
5.4 转换数据
5.4.1 哑变量处理类别型数据:get_dummies
5.4.2 离散化连续型数据
- 等宽法:cut函数
- 等频法:自定义函数 + cut函数
- 聚类分析法:K-means