企业非法集资风险预测第一周周报
1.赛题理解
-
背景:非法集资严重干扰了正常的经济、金融秩序,使参与者遭受经济损失,甚至生活陷入困境,极易引发社会不稳定和大量社会治安问题,甚至引发局部地区的社会动荡。如何根据大量的企业信息建立预测模型并判断企业是否存在非法集资风险,对监管部门、企业合作伙伴、投资者都具有一定的价值。
-
任务:利用机器学习、深度学习等方法训练一个预测模型,该模型可学习企业的相关信息,以预测企业是否存在非法集资风险。赛题的难点在于数据集包括大量的企业相关信息,如何从中提取有效的特征并进行风险预测成为本赛题的关键问题。
2.数据初步认识
该数据集包含约25000家企业数据,其中约15000家企业带标注数据作为训练集,剩余数据作为测试集。数据由企业基本信息、企业年报、企业纳税情况等组成,数据包括数值型、字符型、日期型等众多数据类型(已脱敏),部分字段内容在部分企业中有缺失,其中第一列id为企业唯一标识。
- 主要包含以下字段
id:企业唯一标识,
oplocdistrict:行政区划代码,
industryphy:行业类别代码,
industryco:行业细类代码,
dom:经营地址,
opscope:经营范围,
enttype:企业类型,
enttypeitem:企业类型小类,
opfrom:经营期限起,
opto:经营期限止,
state:状态,
orgid:机构标识,
jobid:职位标识,
adbusign:是否广告经营,
townsign:是否城镇,
regtyp