2020 华为杯数模 B题数据挖掘

最新推荐文章于 2024-05-01 01:41:31 发布

安东time

最新推荐文章于 2024-05-01 01:41:31 发布

阅读量5k

点赞数 3

分类专栏：机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_42376458/article/details/108712967

版权

B题是一道数据挖掘题目
主要难点是：题目样本较小，但是样本的维度又很大，需要分析的目标与数据之间的关系不明显

解决这个题目应该注重以下几方面
1、审题，对题目的要求一定要看清楚，特别是对提供的数据一定要仔细查看，最好用一些常规方法检验以下数据的分布情况
2、降维之前要把数据处理做好，数据处理很重要
3、建模之前要把降维做好，降维做得对，模型才好用
4、所以从难度上来说数据处理小于数据降维小于模型调整，但是从重要性上来水数据处理大于数据降维大于模型调整，一般人很难做出新的模型去针对这个问题，所以在模型层面大家都一样，但是在降维方面由于大家选择的方法不一样，可能效果就不一样，数据处理更是看每个人的仔细程度和经验积累了。

接下来总价以下数据挖掘流程中，每个步骤的方法

数据预处理

缺失值：
空值，超过取值范围的值

缺失值的处理：
当缺失值占比过高，可以直接删除此类值
当缺失值占比较低，可以考虑用均值填充，或者临近值填充

离群值：
简单统计分析：根据箱线图、各分位点判断是否存在异常，例如pandas的describe函数可以快速发现异常值
3西格玛原则
基于密度：离群点的局部密度显著低于大部分近邻点，适用于非均匀的数据集
基于聚类：利用聚类算法，丢弃远离其他簇的小簇
基于距离：通过定义对象之间的临近性度量，根据距离判断异常对象是否远离其他对象，缺点是计算复杂度较高，不适用于大数据集和存在不同密度区域的数据集

离群值处

最低0.47元/天解锁文章

关注

3
点赞
踩
42

收藏

觉得还不错? 一键收藏
0
评论
2020 华为杯数模 B题数据挖掘

B题是一道数据挖掘题目主要难点是：题目样本较小，但是样本的维度又很大，需要分析的目标与数据之间的关系不明显解决这个题目应该注重以下几方面1、审题，对题目的要求一定要看清楚，特别是对提供的数据一定要仔细查看，最好用一些常规方法检验以下数据的分布情况2、降维之前要把数据处理做好，数据处理很重要3、建模之前要把降维做好，降维做得对，模型才好用4、所以从难度上来说数据处理小于数据降维小于模型调整，但是从重要性上来水数据处理大于数据降维大于模型调整，一般人很难做出新的模型去针对这个问题，所以在模型层面大
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。