大数据风控AI竞赛总结

前海征信“好信杯”大数据算法大赛 (2017)

竞赛背景

作为平安旗下专业第三方商业征信机构,前海征信有着丰富的数据资源。本次赛事中主办方前海征信开放业务数据,设计国内首个迁移学习赛题:参赛选手需依据给定的4万条业务A数据及4千条业务B数据,建立业务B的信用评分模型。其中业务A为信用贷款, 其特征就是债务人无需提供抵押品,仅凭自己的信誉就能取得贷款,并以借款人信用程度作为还款保证的;业务B为现金贷,即发薪日贷款(payday loan),与一般的消费金融产品相比,现金贷主要具有以下五个特点:额度小、周期短、无抵押、流程快、利率高,这也是与其借贷门槛低的特征相适应的。由于业务A、B存在关联性,选手如何将业务A的知识迁移到业务B,以此增强业务B的信用评分模型,是本次比赛的重点。

竞赛结果(分数为AUC结果)

在这里插入图片描述

优秀获奖作品
第一名

文章:https://www.kesci.com/home/competition/forum/595a0df08bbf940ae1b65224
Notebook:https://www.kesci.com/home/project/59411d0623168e6e8924af6b

第三名(含数据)

文章:https://mp.weixin.qq.com/s/xGp_xU_wdAQHQ3ZRqy8NWA
代码:https://github.com/yzkang/QH_FInSight

第四名

文章:https://www.kesci.com/home/competition/forum/5959f9d98bbf940ae1b64c7a

第3届(2018) 融360天机智能金融算法挑战赛 - 赛题二:特征挖掘

竞赛背景

融360是中国最大的网络贷款平台,平台的一端是亿级别有借款需求的小微企业和个人消费者,另一端是有贷款资金的万级别的金融机构(银行、小贷、担保、典当等)和百万级的金融产品,平台的职责是撮合借款用户和贷款,以及提供必要的风控服务。其中重要的一环是对用户的数据信息进行挖掘,进而全方位立体化的描绘用户特征,更好的服务用户及金融机构。这里分为几步:第一步是大数据化,就是把割裂分散的数据集中在一起,做成数据仓库;第二步是数据的结构化和网络化,即建立主体之间的联系,关联各种属性;第三步是挖掘和推理,即通过文本挖掘、网络的分析计算,得到想要的知识或特征。
本题要求参赛者根据题目中提供的用户数据(包括关联关系、危险行为、标签类型、app情况, 均已脱敏),通过数据挖掘技术,组合出有显著效果的特征,并利用这些特征构建模型预测用户的逾期情况。

数据下载

链接:https://pan.baidu.com/s/1idFnZW5MnkeMHGCMfsYomQ 密码:dbka

竞赛结果

在这里插入图片描述

优秀获奖作品
来自网络

文章:https://go.ctolib.com/article/wiki/103187

第2届(2016) 融360天机智能金融算法挑战赛

优秀获奖作品
第一名

代码:https://github.com/duxuhao/rong360-season2

西南财经大学“新网银行杯”数据科学竞赛 (2018)

竞赛背景

四川新网银行以建设“数字普惠银行”为愿景,运用互联网大数据风控、云计算、人工智能等技术,为客户提供具有高可得性和良好用户体验的金融产品。目前,四川新网银行已经开发出了国内第一款全在线办理的银行大额云授信产品——“好人贷”。新网银行采用了“万能连接”的打法,以开放的姿态提供连接服务,让更大范围内的用户和需求、产品和服务进行连接并适配,做金融服务领域的“万能连接器”。截至2018年6月底,新网银行与超过500多家银行同业、互联网平台机构等产生了连接,服务了超过1500多万用户。
四川新网银行属于全国首批将机器学习技术应用到实际零售信贷业务中的银行。在”好人贷“的量化风控实践中,四川新网银行依然面临多个维度的挑战:高维数据、稀疏数据、无标签样本、多产品客群好坏样本不平衡等等。为了更好地服务更多的客户,新网银行期待各位参赛者利用机器学习算法的最新成果,设计出区分能力高、稳定性强的信用风险预测模型。

竞赛排名

在这里插入图片描述

优秀作品
第二名获奖作品

代码:https://github.com/TingNie/CreditForecast

融360用户贷款风险预测

竞赛背景

融360与平台上的金融机构合作,提供了近7万贷款用户的基本身份信息、消费行为、银行还款等数据信息,需要参赛者以此建立准确的风险控制模型,来预测用户是否会逾期还款。

数据下载

链接:https://pan.baidu.com/s/1smvX7Pj 密码:jvxa

优秀作品
第七名获奖作品

代码:https://github.com/hczheng/Rong360

微额借款用户人品预测大赛

优秀作品
冠军选手作品

代码:https://github.com/wepe/DataCastle-Solution

基于互联网金融的智能信贷风控设计(邀请赛)

数据下载

地址:https://pan.baidu.com/s/19CLim1abXBt-KXn079F_fA 密码:yp6s

信贷需求预测_算法组

竞赛背景

金条是京东金融旗下的一款无抵押现金贷产品,申请人只需要在京东金条申请页面填写少量的个人信息即可申请现金贷款。在开展这类信贷业务的时候,除了要评估用户的风险之外,还需要预测用户的借款需求,只有尽可能的给有借款需求的用户分配合适的额度,才能最大限度的增加资金利用率,降低成本并增加收益,因此预测用户的信贷需求是金条产品运营的核心问题之一。
本题目希望参赛者通过竞赛数据中的用户基本信息、在移动端的行为数据、购物记录和历史借贷信息来建立预测模型,对未来一个月内用户的借款总金额进行预测。本赛题中包含了各种维度的序列数据、品类交易数据,选手可以采用各种类型的数据预处理算法、模型融合等技术来解决信贷需求这个关键的商业问题。

竞赛排名

在这里插入图片描述

数据下载

地址:密码:

优秀作品
第17名作品

代码:https://github.com/klyan/JDD_Loan_Forecasting

拍拍贷Kesci“魔镜杯”风控算法大赛

竞赛背景

拍拍贷“魔镜风控系统”从平均400个数据维度评估用户当前的信用状态,给每个借款人打出当前状态的信用分,在此基础上,再结合新发标的信息,打出对于每个标的6个月内逾期率的预测,为投资人提供了关键的决策依据,促进健康高效的互联网金融。拍拍贷首次开放丰富而真实的历史数据,邀你PK“魔镜风控系统”,通过机器学习技术,你能设计出更具预测准确率和计算性能的违约预测算法吗?

优秀作品
银奖作品

代码:https://github.com/palladino1/NiuwaBigData

铜奖作品

代码:https://github.com/wepe/PPD_RiskControlCompetition

入围奖作品

代码:https://github.com/Percyzhou/ppdmojing

AI 全球挑战者大赛—违约用户风险预测

大赛背景

本次大赛要求参赛者基于马上金融平台提供的近 7 万贷款用户的基本身份信息、消费行为、银行还款等数据信息,建立准确的风险控制模型,来预测用户是否会逾期还款。

数据下载

链接:https://pan.baidu.com/s/1dFX1X4Y7KZWrAkxzE2nzbA 密码:6rwo

优秀作品
冠军选手作品

代码:https://github.com/chenkkkk/User-loan-risk-prediction

  • 5
    点赞
  • 24
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
AliDMCompetition 阿里巴巴大数据竞赛(http://102.alibaba.com/competition/addDiscovery/index.htm ) 数据说明 提供的原始文件有大约4M左右,涉及1千多天猫用户,几千个天猫品牌,总共10万多条的行为记录。 用户4种行为类型(Type)对应代码分别为: 点击:0 购买:1 收藏:2 购物车:3 提交格式 参赛者将预测的用户存入文本文件中,格式如下: user_id \t brand_id , brand_id , brand_id \n 上传的结果文件名字不限(20字以内),文件必须为txt格式。 预测结果 真实购买记录一共有3526条 TODO 注意调整正负样本比例 在LR的基础上做RawLR。按照天猫内部的思路来。 在LR的基础上做MRLR,样本提取要更加合理。 在UserCF和ItemCF上加上时间因子的影响。 利用UserCF做好的用户聚类、ItemCF做好的品牌聚类来做细化的LR,或者在聚类 上做LFM 在ItemCF的思路上挖掘频繁项集/购买模式,如购买品牌A和商品后往往会购买 品牌B的商品 LFM 数据集特征 某一商品在购买前的一段时间内会出现大量点击次数,购买完成后的一段时间内也会出现大量点击次数 用户在本月有过行为的商品极少出现在下个月的购买列表里 根据观察推断:用户浏览商品的行为可分为两类: 无目的浏览,可能会在浏览过程中对某些中意的商品进行购买,数据表现为有大量点击次数<=2的行为记录,但很少有购买行为 有目的的查找商品,可能是事先有需求的情况,数据表现为一段时间内点击商品数很少, 但点击过的商品大多数都进行了购买 参考论文 See https://www.google.com.hk/search?q=data+mining+time+series&ie=utf-8&oe=utf-8&aq=t for more. Chapter 1 MINING TIME SERIES DATA - ResearchGate 模型列表 LR(model=LinearSVC(C=10, loss='l1'), alpha=0.7, degree=1) | TOTAL VISITED BOUGHT FAVO CART NEW | Pred # 1438 1436 626 71 12 | % 100% 99.861% 43.533% 4.937% 0.834% | Real # 1311 250 89 10 1 | % 100% 19.069% 6.789% 0.763% 0.076% Hit # 76 Precision 5.285118% Recall 5.797101% F1 Score 5.529283% LR(model=LogisticRegression(penalty='l1'), alpha=0.7, degree=1) | TOTAL VISITED BOUGHT FAVO CART NEW | Pred # 1472 1470 615 68 14 | % 100% 99.864% 41.780% 4.620% 0.951% | Real # 1311 250 89 10 1 | % 100% 19.069% 6.789% 0.763% 0.076% Hit # 74 Precision 5.027174% Recall 5.644546% F1 Score 5.318002% 这个模型在数据变成2次后,Precision ~ 16%,同时F1 ~ 3% LR(model=Perceptron(penalty='l1'), alpha=0.7, degree=1) | TOTAL VISITED BOUGHT FAVO CART NEW | Pred # 3145 3140 1023 130 26 | % 100% 99.841% 32.528% 4.134% 0.827% | Real # 1311 250 89 10 1 | % 100% 19.069% 6.789% 0.763% 0.076% Hit # 113 Precis
拍贷“魔镜风控系统”从平均 拍贷“魔镜风控系统”从平均 拍贷“魔镜风控系统”从平均 拍贷“魔镜风控系统”从平均 拍贷“魔镜风控系统”从平均 拍贷“魔镜风控系统”从平均 拍贷“魔镜风控系统”从平均 拍贷“魔镜风控系统”从平均 400 个数据维度评估用户当前的信状态,给每借款 个数据维度评估用户当前的信状态,给每借款 个数据维度评估用户当前的信状态,给每借款 个数据维度评估用户当前的信状态,给每借款 个数据维度评估用户当前的信状态,给每借款 个数据维度评估用户当前的信状态,给每借款 个数据维度评估用户当前的信状态,给每借款 个数据维度评估用户当前的信状态,给每借款 个数据维度评估用户当前的信状态,给每借款 个数据维度评估用户当前的信状态,给每借款 人打出当前状态的 信用分,在此基础上再结合新发标息对于每个人打出当前状态的 信用分,在此基础上再结合新发标息对于每个人打出当前状态的 信用分,在此基础上再结合新发标息对于每个人打出当前状态的 信用分,在此基础上再结合新发标息对于每个人打出当前状态的 信用分,在此基础上再结合新发标息对于每个人打出当前状态的 信用分,在此基础上再结合新发标息对于每个人打出当前状态的 信用分,在此基础上再结合新发标息对于每个人打出当前 状态的 信用分,在此基础上再结合新发标息对于每个人打出当前状态的 信用分,在此基础上再结合新发标息对于每个人打出当前状态的 信用分,在此基础上再结合新发标息对于每个人打出当前状态的 信用分,在此基础上再结合新发标息对于每个人打出当前状态的 信用分,在此基础上再结合新发标息对于每个人打出当前状态的 信用分,在此基础上再结合新发标息对于每个人打出当前状态的 信用分,在此基础上再结合新发标息对于每个人打出当前状态的 信用分,在此基础上再结合新发标息对于每个人打出当前状态的 信用分,在此基础上再结合新发标息对于每个人打出当前状态的 信用分,在此基础上再结合新发标息对于每个6个月内逾 个月内逾 期率的预测 ,为投资人提供关键决策依据。本次竞赛目标是根用户历史行数来期率的预测 ,为投资人提供关键决策依据。本次竞赛目标是根用户历史行数来期率的预测 ,为投资人提供关键决策依据。本次竞赛目标是根用户历史行数来期率的预测 ,为投资人提供关键决策依据。本次竞赛目标是根用户历史行数来期率的预测 ,为投资人提供关键决策依据。本次竞赛目标是根用户历史行数来期率的预测 ,为投资人提供关键决策依据。本次竞赛目标是根用户历史行数来期率的预测 ,为投资人提供关键决策依据。本次竞赛目标是根用户历史行数来期率的预测 ,为投资人提供关键决策依据。本次竞赛目标是根用户历史行数来期率的预测 ,为投资人提供关键决策依据。本次竞赛目标是根用户历史行数来期率的预测 ,为投资人提供关键决策依据。本次竞赛目标是根用户历史行数来期率的预测 ,为投资人提供关键决策依据。本次竞赛目标是根用户历史行数来期率的预测 ,为投资人提供关键决策依据。本次竞赛目标是根用户历史行数来期率的预测 ,为投资人提供关键决策依据。本次竞赛目标是根用户历史行数来期率的预测 ,为投资人提供关键决策依据。本次竞赛目标是根用户历史行数来期率的预测 ,为投资人提供关键决策依据。本次竞赛目标是根用户历史行数来期率的预测 ,为投资人提供关键决策依据。本次竞赛目标是根用户历史行数来期率的预测 ,为投资人提供关键决策依据。本次竞赛目标是根用户历史行数来期率的预测 ,为投资人提供关键决策依据。本次竞赛目标是根用户历史行数来期率的预测 ,为投资人提供关键决策依据。本次竞赛目标是根用户历史行数来用户在未来 用户在未来 用户在未来 6个月内是否会逾期还款的概率。 个月内是否会逾期还款的概率。 个月内是否会逾期还款的概率。 个月内是否会逾期还款的概率。 个月内是否会逾期还款的概率。 个月内是否会逾期还款的概率。 个月内是否会逾期还款的概率。 问题转换成 问题转换成 问题转换成 2分类问题,评估指标为 分类问题,评估指标为 分类问题,评估指标为 分类问题,评估指标为 分类问题,评估指标为 分类问题,评估指标为 分类问题,评估指标为 AUC ,从 Master Master Master,LogInfoLogInfo LogInfo ,UpdateInfo UpdateInfo UpdateInfo 表中构建 表中构建 特征,考虑评估指标为 特征,考虑评估指标为 特征,考虑评估指标为 特征,考虑评估指标为 特征,考虑评估指标为 AUC AUC,其本质是排序优化问题,所以我们在模型顶层合也使用基于 ,其本质是排序优化问题所以我们在模型顶层合也使用基于 ,其本质是排序优化问题所以我们在模型顶层合也使用基于 ,其本质是排序优化问题所以我们在模型顶层合也使用基于 ,其本质是排序优化问题所以我们在模型顶层合也使用基于 ,其本质是排序优化问题所以我们在模型顶层合也使用基于 ,其本质是排序优化问题所以我们在模型顶层合也使用基于 ,其本质是排序优化问题所以我们在模型顶层合也使用基于 ,其本质是排序优化问题所以我们在模型顶层合也使用基于 ,其本质是排序优化问题所以我们在模型顶层合也使用基于 ,其本质是排序优化问题所以我们在模型顶层合也使用基于 ,其本质是排序优化问题所以我们在模型顶层合也使用基于 ,其本质是排序优化问题所以我们在模型顶层合也使用基于 ,其本质是排序优化问题所以我们在模型顶层合也使用基于 ,其本质是排序优化问题所以我们在模型顶层合也使用基于 排序优化的 排序优化的 排序优化的 RANK_AVG RANK_AVG RANK_AVG合方法。 合方法。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值