数据分析
李元乐
山高李维峰
展开
-
网贷风控体系之-风控模型
网贷风控体系之-风控模型大数据风控模型主要分为两类:**反欺诈模型**交叉验证聚类分析黑灰名单**二元好坏模型**准入阶段,授信额度期限利率模型:评分卡模型,LR,XGBoost贷中阶段:风险变化评估,风险预警贷后阶段:催收时机,催收方法**存在的问题**数据来源问题;模型泛化能力;系统性风险问题原创 2020-08-02 18:14:49 · 966 阅读 · 2 评论 -
网贷风控体系之-决策引擎
网贷风控体系之-决策引擎什么是决策引擎风控决策引擎是金融科技的核心,它通过模拟信贷审核人员,根据收集的资料信息,做出风险决策,判断是否存在风险,风险等级等决策,给出决策的结果。很显然通过这种准需实时支持大量业务的自动化处理,可以极大地提高工作效率,降低风险控制中的各种人为因素,解放人工处理的瓶颈与效率。决策引擎实际上是一系列风控规则的集合,用于识别绝对风险与相对风险。对于绝对风险,决策引擎的的输出结果是“拒绝”,即命中风险规则则拒绝;对于相对风险,决策引擎的有两种输出结果:一类是风险评分原创 2020-08-02 17:59:53 · 651 阅读 · 0 评论 -
网贷风控体系之-系统架构
网贷风控体系之-系统架构目前常见的大数据架构是基于实时大数据处理框架Lambda架构。Lambda架构的数据通道分为实时流和离线两部分。流式通道处理为保障实效性更多的以增量计算为主辅助参考,而批处理层则对数据进行全量运算,保障其最终的一致性。Lambda架构整合离线计算和实时计算,融合不可变性,读写分离和复杂性隔离等一系列架构原则,可集成Hadoop,Kafka,Storm,Spark,Hbase等各类大数据组件。该大数据系统架构具有容错性和鲁棒性,低延时,横向扩容,通用性,可扩展,方便查询,易于维护,原创 2020-08-02 17:49:23 · 656 阅读 · 0 评论 -
网贷风控体系之-概论
网贷风控体系之-概论1,全流程,全周期;2,数据化,数字化;3,场景化,可控化;4,安全合规我们知道,银行级别风险控制措施:以安全性、流动性、效益性为经营原则。一般从以下方面进行整个风控控制:1、专业风控流程。风控措施贯穿于项目筛选、项目尽职调查、项目决策、项目组织实施、项目后续监管和等各个投资流程与环节中。分析各个岗位和流程中的风险,进行风险评估并提出控制措施。2、严格风险审查。综合企业经营特性设置独立风险评估体系,交叉验证企业信息准确性,评估企业融资需求的合理性、合规性。3、完善贷后原创 2020-08-02 20:27:22 · 557 阅读 · 0 评论 -
方差、协方差和协方差矩阵
上次写了相关系数,其实很类似的一个概念是协方差。要说协方差,先复习下基本的统计内容1. 均值2.方差(标准差、标准方差) 或者写为: 简单来说,标准差是一组数值自平均值分散开来的程度的一种测量观念。一个较大的标准差,代表大部分的数值和其平均值之间差异较大;一个较小的标准差,代表这些数值较接近平均值。如果是样本...原创 2019-12-28 13:28:50 · 11329 阅读 · 1 评论 -
数据分析---最小二乘法和梯度下降法
最近在整理数据优化方面的知识,看的多了最小二乘法和梯度下降法之类的词语经常出现,很多算法都有用到类似方法,或者很多算法看起来和这些似曾相识,比如BP神经网络,支持向量机,等等分类回归方法。可见这最小二乘法和梯度下降法是很基础的方法,很值得好好复习下,不然很多东西剪不断,理还乱。 首先科普下,这两个基本的慨念,怕自己忘记了。 最小二乘法(又称最小平方法)是一种数学优原创 2016-02-15 16:06:29 · 9063 阅读 · 0 评论 -
数据分析---SVD,特征值和特征向量
特征值和特征向量其实是线性代数里面的东西,好久之前学习的,差不多都忘光了,这里还是再复习下,慢慢拣回来。网上其实也有很多各种介绍,从基本的原理到几何解释,理解起来还是要一定的数学功底,不过慢慢理解了就没有那么难了。这里举个例子来实作一番:数据文件(input_data.txt)1 1 1 1 1 11 1 1 1 1原创 2016-01-19 16:24:30 · 3759 阅读 · 0 评论 -
数据分析---线性回归
经常说线性模型,线性回归模型,广义线性模型,广义线性混合模型.......之类的词好几个,搞得不好就容易混淆了。下面一起来复习下。1、线性回归模型(也称经典线性模型classic linear model或者一般线性模型General linear model)适用于自变量X和因变量Y为线性关系,具体来说,画出散点图可以用一条直线来近似拟合。模型可以表达为:原创 2015-11-25 15:38:48 · 1531 阅读 · 0 评论 -
大数据---Spark1.5.0之2W2H
天下武功,唯快不破。在面对大数据分析的时候,快就是那不破的武功,而Spark就是这样的神器!What is Spark Apache Spark™ is a fast and general engine for large-scale data processing. Spark官网说的很清楚了,它具有如下优点:Speed: Spark有高原创 2015-10-05 20:03:20 · 1262 阅读 · 0 评论 -
时间序列-指数平滑
时间序列的主要成分一般认为有:平稳,趋势,季节等和几者的累加、累积一般的基础分析方法,首先就是做平滑,那么为什么要做平滑呢?说了也是白说,平滑不就是平均滑动吗,就是为了通过移动平均值来消除或者消弱序列中不规则变动,试图发现其中的规律。这里先来说说指数平滑:指数平滑法有几种不同形式:一次指数平滑法针对没有趋势和季节性的序列,二次指数平滑法针对有趋势但 没有季节性的原创 2015-07-31 15:03:15 · 3484 阅读 · 0 评论 -
相关系数计算
Pearson(皮尔逊), Kendall(肯德尔)和Spearman(斯伯曼/斯皮尔曼)三种相关分析方法具体公式就不Copy了,一般认为:使用Pearson积差相关系数: 两个连续变量间呈线性相关时; 数据呈现正态分布时;Spearman和Kendall相关系数: 对分类变量的数据或变量值的分布明显非正态或分布不明时,计算时先对离散数据原创 2015-08-06 17:40:12 · 1000 阅读 · 0 评论