财务造假判断+面试+车牌识别

最新推荐文章于 2020-11-22 13:55:55 发布

c.x.y.07.30

最新推荐文章于 2020-11-22 13:55:55 发布

阅读量488

点赞数

分类专栏：量化投资数据分析

本文链接：https://blog.csdn.net/MARY197011111/article/details/93396449

版权

题目：判断企业财务是否造假
难点：类别不均衡，造假类远少于非造假类，大概比例为70：1
主要步骤
1.数据预处理
一共36列，其中公司代码列作为索引，没有使用。fake列作为预测的标签列。还剩下34列。查看基本信息，发现投资收益利润比有两条缺失值，进行删除。
2.对于数据分类不平衡的问题，通常可以通过欠采样、过采样或者加入惩罚函数的方法来解决。

欠采样是指通过减少大类样本的数量来平衡数据集，在本例中，需要减少正常样本数量，但这样需要人为选定非造假样本，对原有数据分布有较大影响。
过采样则是通过增加稀有样本的数量来平衡数据集，而不是去除丰富类别的样本的数量。本例中，进行了上采样，利用STMOE算法
3.特征选择

（1）首先进行了PCA降维，方差比设为0.95，得到26维，但是结果不好，可解释性也不强
（2）查看特征之间相关性，剔除一些相关程度大并且相关变量多的变量。（资产负债率（Asset_lia_ratio）与流动比率（Curr_ratio）、速动比率（Quick_ratio）、总资产报酬率（ROA）等之间的负相关性较高），找到与fake有强相关的特征列，审计意见、造假前一年是否亏损、其他应收款占流动资产比例、销售毛利率、预付款

关注

专栏目录