数据挖掘实训 Week 8

理论学习

赛题背景
  • 非法集资包括非法吸收公众存款和集资诈骗
  • 非法集资对于社会和群众都带来了极大的危害
  • 通过互联网金融平台进行的非法集资活动影响面更广危害更大
  • 涉及投资理财、P2P网贷、房地产、教育、私募股权等多种形态
  • 监控和识别非法集资的行为,主要依靠人工收集相关信息实现
  • 依赖历史经验对大量的财务报表进行数字逻辑分析以及统计分析,准确率和效率均较低
  • 利用机器学习、深度学习等方法训练出一个预测模型,通过学习企业的相关信息来预测企业是否存在非法集资风险
数据内容
  • 企业基本数据:约2500家企业数据,包括企业经营方式、行业、地址、注册资本等基本信息
  • 企业年报信息:企业的年报数据,包括从业人数、经营状况、人员分布等
  • 企业税收信息:企业的税收数据,包括税收时间、税种、税率、税额等
  • 企业变更信息:企业的变更数据,包括变更时间、变更具体内容
  • 企业其他相关信息:企业知识产权、企业新闻舆情和企业裁判文书数据
数据集情况
  • 企业基本数据包含了所有企业的大部分信息,因此可作为模型训练所需的主要特征
  • 其他数据仅包含部分企业信息,可通过处理挖掘出相关特征,提升预测正确率
  • 部分企业存在数据缺失情况,可依据数据相关业务进行填充。
样本分布情况
  • 由于是脱敏后的真实数据,存在非法集资的企业数量较少,因此正负样本比例不均衡
  • 样本主要特征集中在企业基本数据中,其他数据仅含样本较少特征
数据类型情况
  • 数据集中存在多种数据类型,包括数值型、字符型、日期型等。
  • 由于地址信息、变更内容等涉及隐私,因此对相关内容进行了脱敏处理

实践

只用企业基本数据训练,得到0.804左右的成绩。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值