问题一
筛选重要指标,本质上是一个数据降维问题。首先应该考虑指标与指标间的相关性,据此筛选;其二考虑指标对 FLAG 的决定性,据此筛选。前者本文用了偏相关分析、后者本文结合决策树模型,进行递归删除特征,并比较删除前后模型效果是否降低,来考虑时候确认或回滚删除操作。
问题一需要注意,在使用递归删除特征时,训练决策树时,样本的类别不均衡问题。难点在于对数据的预处理,不单单要宏观地扫一眼,而且要细致去发现。
问题二
求制造业内,第六年(发布数据应是第七年)造假的企业。如何分析呢?机器学习、深度学习皆可。
问题二的难点在于如何写得出彩。神经网络人人会,就看你怎么玩出花样。根据“没有午餐定则”嘛,大家可以在模型的超参数,和模型选择上下功夫,多说多写。本文用的网格寻优+交叉验证,筛选模型、超参数。
不过写太多,好像也有秀技术之嫌。
问题三
这个问题看上去跟问题三很像,但区别在于,制造业的数据量大,可以分析。而问题三行业多、数据却少。对于那些数据量多的行业,大可使用问题二的方法分析。但数据量小的,可以考虑用聚类合并,再用第二问的方法。
这题难点