2021 泰迪杯 A 题思路

本文详细探讨了2021年泰迪杯A题的三个问题,涉及数据降维、不平衡样本处理、企业造假预测等。在问题一中,通过偏相关分析和决策树模型解决指标筛选。问题二使用深度学习,如神经网络,结合网格寻优和交叉验证优化模型。问题三针对数据量差异,提出先分析制造业,再用聚类合并处理小数据量行业。难点在于编程实现和聚类方法选择,同时提出了应对数据量少且无法训练模型的情况的策略。
摘要由CSDN通过智能技术生成

问题一

筛选重要指标,本质上是一个数据降维问题。首先应该考虑指标与指标间的相关性,据此筛选;其二考虑指标对 FLAG 的决定性,据此筛选。前者本文用了偏相关分析、后者本文结合决策树模型,进行递归删除特征,并比较删除前后模型效果是否降低,来考虑时候确认或回滚删除操作。

问题一需要注意,在使用递归删除特征时,训练决策树时,样本的类别不均衡问题。难点在于对数据的预处理,不单单要宏观地扫一眼,而且要细致去发现。

问题二

求制造业内,第六年(发布数据应是第七年)造假的企业。如何分析呢?机器学习、深度学习皆可。

问题二的难点在于如何写得出彩。神经网络人人会,就看你怎么玩出花样。根据“没有午餐定则”嘛,大家可以在模型的超参数,和模型选择上下功夫,多说多写。本文用的网格寻优+交叉验证,筛选模型、超参数。

不过写太多,好像也有秀技术之嫌。

问题三

这个问题看上去跟问题三很像,但区别在于,制造业的数据量大,可以分析。而问题三行业多、数据却少。对于那些数据量多的行业,大可使用问题二的方法分析。但数据量小的,可以考虑用聚类合并,再用第二问的方法。

这题难点

评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

zhuo木鸟

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值