读取附件中的泰坦尼克号数据集完成如下任务:
1. 处理空值
1.1 先做缺失值分析,统计每一列的缺失值数量和比例
1.2 删除空值内容,包括:
- 去掉包含空值的行
- 去掉某几列有空值的行(subset)
- 去掉有空值的列
1.3 填充空值,包括:
- 固定值填充
- 均值填充
- 前向/后向填充
2. 处理重复值
- 先做重复值探索分析
- 如果存在就去掉重复值,分如下两种情况
- 整列重复
- 选取某些列看是否重复,并将重复的去掉
3. 异常值处理
- 通过分位数(箱线图)去掉异常值
4. 数据转换
- 将非数值类型编码成数值类型
- 对舱位等级(pclass)先标签编码,然后进行one-hot编码
- 数据规范化
- 最大最小值归一化
- z-score归一化
- 范式归一化