B题是一道数据挖掘题目
主要难点是 :题目样本较小,但是样本的维度又很大,需要分析的目标与数据之间的关系不明显
解决这个题目应该注重以下几方面
1、审题,对题目的要求一定要看清楚,特别是对提供的数据一定要仔细查看,最好用一些常规方法检验以下数据的分布情况
2、降维之前要把数据处理做好,数据处理很重要
3、建模之前要把降维做好,降维做得对,模型才好用
4、所以从难度上来说数据处理小于数据降维小于模型调整,但是从重要性上来水数据处理大于数据降维大于模型调整,一般人很难做出新的模型去针对这个问题,所以在模型层面大家都一样,但是在降维方面由于大家选择的方法不一样,可能效果就不一样,数据处理更是看每个人的仔细程度和经验积累了。
接下来总价以下数据挖掘流程中,每个步骤的方法
数据预处理
缺失值:
空值,超过取值范围的值
缺失值的处理:
当缺失值占比过高,可以直接删除此类值
当缺失值占比较低,可以考虑用均值填充,或者临近值填充
离群值:
简单统计分析:根据箱线图、各分位点判断是否存在异常,例如pandas的describe函数可以快速发现异常值
3西格玛原则
基于密度:离群点的局部密度显著低于大部分近邻点,适用于非均匀的数据集
基于聚类:利用聚类算法,丢弃远离其他簇的小簇
基于距离:通过定义对象之间的临近性度量,根据距离判断异常对象是否远离其他对象,缺点是计算复杂度较高,不适用于大数据集和存在不同密度区域的数据集
离群值处