金融业信贷风控算法3-数据分析简介

一. 业务背景

数据分析是一项从自然环境、社会环境、网络环境中提取数据,实施分析,得出结论并验证的工作。
image.png

不是为了分析而做分析
针对特定的问题,用适当的学科知识从数据中提炼信息,形成结论
image.png

image.png

二. 数据的搜集与整理

数据搜集:
image.png

数据清洗:
做数据清洗的原因:脏数据;不满足分析要求
image.png

三. 数据可视化

3.1 可视化的意义

可视化数据包含的信息不会超过数据本身,但是能让使用者更加容易发掘数据的信息。在数据可视化下,信息的获取、加工、输出会变得更加简洁。

3.2 数据可视化的场景

image.png

image.png

image.png

image.png

image.png

3.3 在统计分析里的可视化案例

正态性检验:QQ-plot
image.png

相关性检验:scatter matrix
image.png

时间序列:ACF
image.png

3.4 数据可视化常用的工具

专业工具:

  1. Tableau:优秀的数据可视化展示工具,数据图表制作能力强,操作简单,上手快不需要写代码,数据的导入和加载都是向导式,内置美观的可视化图表,不用考虑配色,表格处理好格式即可。
  2. DataV:阿里云出品,付费(5元/月),拥有极其丰富的图表选择,编程简易,支持丰富的数据接入方式(其中有API接口),拥有动画效果

通用工具:

  1. Excel:entry level的“菜鸟”到骨灰级专家都能玩转
  2. R和Python:丰富的内嵌图表和海量的三方库,灵活性高

四. 分析方法

4.1 描述性统计量

image.png

4.2 有监督模型

在分析过程中,存在一个或多个“目标”变量,使得我们需要去研究其他变量(称为独立变量,或者特征)如何影响这(些)个目标变量。

例如下面的2个案例:

  1. 研究新生入学成绩、性别、第一学期平均学习时长是如何影响期末考试成绩
  2. 研究竞选中,选民的学历、收入、民族、职业等因素如何影响候选人竞选成功

单一目标变量占了绝大多数的场景。

4.3 回归和分类

当目标变量是连续型数值变量时,是回归模型,如案例1
当目标变量是取值为2或更多的类别型变量时,是分类模型,如案例2

回归:线性回归,部分广义线性回归,神经网络/深度学习模型等
分类:SVM,分类树,朴素贝叶斯,逻辑回归,kNN,神经网络/深度学习模型
排序:page rank
有监督模型的损失函数
𝑙𝑜𝑠𝑠 𝑓𝑢𝑛𝑐𝑡𝑖𝑜𝑛=𝑒𝑟𝑟𝑜𝑟 𝑐𝑜𝑠𝑡+𝑐𝑜𝑚𝑝𝑙𝑒𝑥𝑖𝑡𝑦 𝑐𝑜𝑠𝑡
说明:
回归和分类,并没有本质的区别。部分模型同时适用于二者,如ANN,DL,CART等
除了上述的单一模型外,还有各种集成模型。例如基于bagging 的随机森林,基于boosting 的AdaBoost,GBDT,xgboost。又: GBDT,xgboost仅仅是集成框架,不表示具体的回归或者分类模型

4.4 无监督模型

对特征:主成分分析、因子分析等
对样本:关联分析、部分聚类分析、复杂网络、生成模型(如自动编码机、GAN等)

说明
除了有/无监督外,还有半监督模型
增强学习不认为是有/无监督模型
image.png

五. 数据分析工具

R:
面向统计分析的编程语言,丰富的作图功能,开源
CRAN
Rstudio
install.packages(), library()

Python:
自由软件,胶水语言,免费的MATLAB
pip install yourPackage
import yourPackage as pkg
From yourPackage import yourFunction

六.数据分析实例

数据源:
链接:https://pan.baidu.com/s/1B_7fPpYSt8fmSwSX0vNJqw
提取码:qjlf

6.1 饼图

根据提供的数据,按照要求,生成如下图形:
image.png

首先使用sql进行预处理:

select concat(sum(case when NAME_CONTRACT_TYPE = 'Cash loans' then 1 else 0 end)*100/count(*),'%') as Cash_loans,
       concat(sum(case when NAME_CONTRACT_TYPE = 'Revolving loans' then 1 else 0 end)*100/count(*),'%') as Revolving_loans
  from application_train_small

选中一行数据,插入->饼图->三维饼图的第一个
image.png

选择合适的图表布局 以及图表样式
image.png

6.2 柱形图

根据提供的数据,按照要求,生成如下图形:
image.png

首先需要加工一下原数据:

select t.NAME_CONTRACT_TYPE,
       concat(round(sum(case when t.CODE_GENDER = 'F' then 1 else 0 end)*100/count(*),2),'%')  F,
       concat(round(sum(case when t.CODE_GENDER = 'M' then 1 else 0 end)*100/count(*),2),'%')   M  
 from application_train_small t
  where t.NAME_CONTRACT_TYPE not in ('XNA')
  group by t.NAME_CONTRACT_TYPE

选中一行数据,插入->柱形图->三维柱形图的第三个
image.png
出现如下图表:
image.png

先切换行和列,然后再选择第4个样例
image.png

最终出来的图表就是题目要求的
image.png

6.3 并排柱形图

根据提供的数据,按照要求,生成如下图形:
image.png

参考:

  1. http://www.dataguru.cn/mycourse.php?mod=intro&lessonid=1701
  2. https://blog.csdn.net/weixin_43851352/article/details/108325050
  3. https://blog.csdn.net/u014281392/article/details/81121122
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值