数据挖掘第七周周报
数据挖掘阶段性归纳总结
由于时间关系,第一阶段的数据挖掘进入到了最后一周,由于进度问题,还没有具体深入,所以在该阶段的最后一周还是对基础知识做一定的总结归纳为主
天池数据挖掘比赛主要分为以下几个步骤
1.赛题理解
主要是对赛题的背景进行一定的了解,然后对数据概况有个基本的认知,以及对评价指标有大概的认识。其有助于对竞赛全局的把握。通过赛题理解有助于对赛题的业务逻辑把握,对于后期的特征工程构建和模型选择都尤为重要。
2.数据分析
- 数据总体了解:
- 读取数据集并了解数据集大小,原始特征维度;
- 通过info熟悉数据类型;
粗略查看数据集中各特征基本统计量;
- 缺失值和唯一值:
- 查看数据缺失值情况
- 查看唯一值特征情况
- 深入数据-查看数据类型
- 类别型数据
- 数值型数据
- 离散数值型数据
- 连续数值型数据
- 数据间相关关系
- 特征和特征之间关系
- 特征和目标变量之间关系
- 用pandas_profiling生成数据报告
3.特征工程
-
数据预处理:
- 缺失值的填充
- 时间格式处理
- 对象类型特征转换到数值
-
异常值处理&