2020 华为杯 数模 B题 数据挖掘

B题是一道数据挖掘题目
主要难点是 :题目样本较小,但是样本的维度又很大,需要分析的目标与数据之间的关系不明显

解决这个题目应该注重以下几方面
1、审题,对题目的要求一定要看清楚,特别是对提供的数据一定要仔细查看,最好用一些常规方法检验以下数据的分布情况
2、降维之前要把数据处理做好,数据处理很重要
3、建模之前要把降维做好,降维做得对,模型才好用
4、所以从难度上来说数据处理小于数据降维小于模型调整,但是从重要性上来水数据处理大于数据降维大于模型调整,一般人很难做出新的模型去针对这个问题,所以在模型层面大家都一样,但是在降维方面由于大家选择的方法不一样,可能效果就不一样,数据处理更是看每个人的仔细程度和经验积累了。

接下来总价以下数据挖掘流程中,每个步骤的方法

数据预处理

缺失值:
空值,超过取值范围的值

缺失值的处理:
当缺失值占比过高,可以直接删除此类值
当缺失值占比较低,可以考虑用均值填充,或者临近值填充

离群值:
简单统计分析:根据箱线图、各分位点判断是否存在异常,例如pandas的describe函数可以快速发现异常值
3西格玛原则
基于密度:离群点的局部密度显著低于大部分近邻点,适用于非均匀的数据集
基于聚类:利用聚类算法,丢弃远离其他簇的小簇
基于距离:通过定义对象之间的临近性度量,根据距离判断异常对象是否远离其他对象,缺点是计算复杂度较高,不适用于大数据集和存在不同密度区域的数据集

离群值处

  • 3
    点赞
  • 42
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值