理论学习
赛题背景
- 非法集资包括非法吸收公众存款和集资诈骗
- 非法集资对于社会和群众都带来了极大的危害
- 通过互联网金融平台进行的非法集资活动影响面更广危害更大
- 涉及投资理财、P2P网贷、房地产、教育、私募股权等多种形态
- 监控和识别非法集资的行为,主要依靠人工收集相关信息实现
- 依赖历史经验对大量的财务报表进行数字逻辑分析以及统计分析,准确率和效率均较低
- 利用机器学习、深度学习等方法训练出一个预测模型,通过学习企业的相关信息来预测企业是否存在非法集资风险
数据内容
- 企业基本数据:约2500家企业数据,包括企业经营方式、行业、地址、注册资本等基本信息
- 企业年报信息:企业的年报数据,包括从业人数、经营状况、人员分布等
- 企业税收信息:企业的税收数据,包括税收时间、税种、税率、税额等
- 企业变更信息:企业的变更数据,包括变更时间、变更具体内容
- 企业其他相关信息:企业知识产权、企业新闻舆情和企业裁判文书数据
数据集情况
- 企业基本数据包含了所有企业的大部分信息,因此可作为模型训练所需的主要特征
- 其他数据仅包含部分企业信息,可通过处理挖掘出相关特征,提升预测正确率
- 部分企业存在数据缺失情况,可依据数据相关业务进行填充。
样本分布情况
- 由于是脱敏后的真实数据,存在非法集资的企业数量较少,因此正负样本比例不均衡
- 样本主要特征集中在企业基本数据中,其他数据仅含样本较少特征
数据类型情况
- 数据集中存在多种数据类型,包括数值型、字符型、日期型等。
- 由于地址信息、变更内容等涉及隐私,因此对相关内容进行了脱敏处理
实践
只用企业基本数据训练,得到0.804左右的成绩。