【机器学习PAI实践六】金融贷款发放预测

标签: 机器学习
3512人阅读 评论(0) 收藏 举报
分类:

一、背景

很多农民因为缺乏资金,在每年耕种前会向相关机构申请贷款来购买种地需要的物资,等丰收之后偿还。农业贷款发放问题是一个典型的数据挖掘问题。贷款发放人通过往年的数据,包括贷款人的年收入、种植的作物种类、历史借贷信息等特征来构建经验模型,通过这个模型来预测受贷人的还款能力。
本文借助真实的农业贷款业务场景,利用回归算法解决贷款发放业务。 线性回归,是利用数理统计中回归分析,来确定两种或两种以上变量间相互依赖的定量关系的一种统计分析方法,运用十分广泛。本文通过农业贷款的历史发放情况,预测是否给预测集的用户发放他们需要的金额的贷款。

二、数据集介绍

具体字段如下:

字段名 含义 类型 描述
id 数据唯一标识符 string
name 用户名 string
region 用户所属地区 string 从北到南排列
farmsize 拥有土地大小 double 土地面积
rainfall 降雨量 double 降雨量
landquality 土地质量 double 土地质量数值越大越好
farmincome 收入 double 年收入
maincrop 种植作物 string 种植作物的种类
claimtype 贷款类型 string 两种
claimvalue 贷款金额 double 贷款金额

数据截图:

三、数据探索流程

首先,实验流程图:

1.数据源

数据的输入有两部分,贷款训练集用来进行回归模型的训练,共二百条数据,是历史贷款数据,包括一些farmsize、rainfall等特征,claimvalue是贷款收回的金额。贷款预测集是今年申请贷款者,claimvalue是农民申请的贷款金额,共71人。我们通过已有的二百多条历史数据,预测给七十一人中的哪些申请贷款人发放贷款。

2.特征工程

将一些字符串类型的数据,根据他们的含义映射成数字。比如说region字段,我们将其中的north、middle、south按照从北到南的顺序分别映射成0、1、2。然后通过类型转换将字段转换成double类型,这样就可以进行下面的回归计算了。

如下图:

3.回归及预测

线性回归组件对于历史数据训练并生成回归模型,在预测组件中利用回归模型对于预测集数据进行了预测。通过合并列组件将用户ID、预测值、申请的贷款值合并。预测值表示的是用户的还贷能力(预期可以归还的金额)。

4.回归模型评估

通过回归模型评估组件对于回归模型进行评估。

5.发放贷款人

通过过滤与映射组件筛选出可以获得贷款的人,这里的业务逻辑是针对每个客户,如果他被预测得到的还款能力大于他申请贷款的金额,就对他发放贷款。

四、其它

关注作者微信公众号:

参与讨论:云栖社区公众号

免费体验:阿里云数加机器学习平台

查看评论

【python】Logistics模型预测银行贷款违约

Logistics模型预测贷款违约          logistic回归又称logistic回归分析,是一种广义的线性回归分析模型,常用于数据挖掘,疾病自动诊断,经济预测等领域。 Logist...
  • huozi07
  • huozi07
  • 2016-01-03 15:18:34
  • 3304

用户贷款风险预测之Top10初体验

用户贷款风险预测之Top10初体验写在前面:DataCastle智慧中国杯全国大数据创新应用大赛:本次参加的是三大赛题中的用户贷款风险预测(算法竞赛) 距离上次发博文又过去近两个月了,坚持写博客是件...
  • sb19931201
  • sb19931201
  • 2017-02-21 22:01:11
  • 7257

金融领域中的机器学习—现在和未来

http://sanwen.net/a/csioaoo.html 在移动银行,熟练的聊天机器人或搜索引擎出现之前,机器学习在金融领域就有广泛应用。由于交易量比较大,交易历史数据精确完...
  • xuxiatian
  • xuxiatian
  • 2016-10-09 17:32:20
  • 5206

挖财基于大数据的信贷审批系统实践

挖财基于大数据的信贷审批系统实践 时间 2016-09-24 16:01:40  代码说 原文  http://h2ex.com/1607 主题 大数据 HBase 数据库 ...
  • javastart
  • javastart
  • 2016-09-25 18:18:48
  • 3785

机器学习项目实战之贷款申请最大利润

import pandas as pd loans_2007 = pd.read_csv("LoanStats3a.csv",skiprows=1) #数据清理过滤无用特征 half_count =...
  • qiujiahao123
  • qiujiahao123
  • 2017-03-21 22:07:36
  • 1174

机器学习系列(18)_Kaggle债务违约预测冠军经验分享

债务违约预测是Kaggle中的一个比赛,本文将介绍取得第一名成绩的方法,本次比赛的目标包括两个方面。其一是建立一个模型,债务人可以通过它来更好地进行财务方面的决策。其二是债权人可以预测这个债务人何时会...
  • yaoqiang2011
  • yaoqiang2011
  • 2016-10-11 15:54:13
  • 23481

Kaggle债务违约预测冠军经验分享

版权声明:本文为博主原创文章,未经博主允许不得转载。 目录(?)[-] 引言SWOT分析法 优势Strengths利用我们已有的优势弱势weaknesses我们需要提升的...
  • zhangf666
  • zhangf666
  • 2016-12-27 16:05:04
  • 1955

Kaggle实战学习 笔记

学习笔记 第一课 数据与可视化 #numpy科学计算工具箱 import numpy as np #使用make_classification构造1000个样本,每个样本有20个feature f...
  • bbbeoy
  • bbbeoy
  • 2017-11-27 17:06:30
  • 1095

Kaggle大赛:债务违约预测冠军作品解析

债务违约预测是Kaggle中的一个比赛,本文将介绍取得第一名成绩的方法,本次比赛的目标包括两个方面。其一是建立一个模型,债务人可以通过它来更好地进行财务方面的决策。其二是债权人可以预测这个债务人何时会...
  • u014032673
  • u014032673
  • 2016-10-20 10:07:53
  • 1639

Loan default predictor(贷款违约预测)

Loan default predictor  (贷款违约预测) --- dylan at  2014-3-16   一:背景 Kaggle发布了一个涉及贷款违约预测的比赛,时间周期2个月(2014/...
  • hero_fantao
  • hero_fantao
  • 2014-06-25 21:36:27
  • 3190
    统计

    主要讲述算法和业务的结合,适合初学者

    机器学习实践应用

    京东地址

    作者公众号:凡人机器学习

    凡人机器学习

    个人资料
    专栏达人 持之以恒
    等级:
    访问量: 89万+
    积分: 1万+
    排名: 1617
    博客专栏