李元乐-CSDN博客

原创网贷风控体系之-概论

网贷风控体系之-概论1，全流程，全周期；2，数据化，数字化；3，场景化，可控化；4，安全合规我们知道，银行级别风险控制措施：以安全性、流动性、效益性为经营原则。一般从以下方面进行整个风控控制：1、专业风控流程。风控措施贯穿于项目筛选、项目尽职调查、项目决策、项目组织实施、项目后续监管和等各个投资流程与环节中。分析各个岗位和流程中的风险，进行风险评估并提出控制措施。2、严格风险审查。综合企业经营特性设置独立风险评估体系，交叉验证企业信息准确性，评估企业融资需求的合理性、合规性。3、完善贷后

2020-08-02 20:27:22 703

原创网贷风控体系之-风控模型

网贷风控体系之-风控模型大数据风控模型主要分为两类：**反欺诈模型**交叉验证聚类分析黑灰名单**二元好坏模型**准入阶段，授信额度期限利率模型：评分卡模型，LR，XGBoost贷中阶段：风险变化评估，风险预警贷后阶段：催收时机，催收方法**存在的问题**数据来源问题；模型泛化能力；系统性风险问题

2020-08-02 18:14:49 1120 1

原创网贷风控体系之-决策引擎

网贷风控体系之-决策引擎什么是决策引擎风控决策引擎是金融科技的核心，它通过模拟信贷审核人员，根据收集的资料信息，做出风险决策，判断是否存在风险，风险等级等决策，给出决策的结果。很显然通过这种准需实时支持大量业务的自动化处理，可以极大地提高工作效率，降低风险控制中的各种人为因素，解放人工处理的瓶颈与效率。决策引擎实际上是一系列风控规则的集合，用于识别绝对风险与相对风险。对于绝对风险，决策引擎的的输出结果是“拒绝”，即命中风险规则则拒绝；对于相对风险，决策引擎的有两种输出结果：一类是风险评分

2020-08-02 17:59:53 787

原创网贷风控体系之-系统架构

网贷风控体系之-系统架构目前常见的大数据架构是基于实时大数据处理框架Lambda架构。Lambda架构的数据通道分为实时流和离线两部分。流式通道处理为保障实效性更多的以增量计算为主辅助参考，而批处理层则对数据进行全量运算，保障其最终的一致性。Lambda架构整合离线计算和实时计算，融合不可变性，读写分离和复杂性隔离等一系列架构原则，可集成Hadoop，Kafka，Storm，Spark，Hbase等各类大数据组件。该大数据系统架构具有容错性和鲁棒性，低延时，横向扩容，通用性，可扩展，方便查询，易于维护，

2020-08-02 17:49:23 728

转载连接物理和数字世界，以数据驱动企业持续增长

数字化转型变得重要且紧急数据驱动型企业的概念以数据生产要素驱动经营管理，实现持续增长和创新发展从农业经济到工业经济，生产要素经历了由土地、劳动力向资本、技术及管理等的演进。数字经济时代催生了以大数据为代表的新型生产要素，企业的经营管理离不开海量数据的支撑。相较于传统生产要素的有限增长和供给，数据具有可复制、可共享、无限增长和供给的特性，可以通过连接物理世界和数字世界，驱动企业向数字化转型升级，进而实现持续增长和创新发展。需要注意的是，数字化转型强调的是运用数字技术，而数据驱动强调是以数据作为关键生产要

2020-07-18 16:30:37 1530

转载时代的数据魔法：ETL

时代的数据魔法：ETLDT时代，如何高效地把数据转换为信息、知识，已经成为企业亟待解决的关键问题，ETL作为数据分析、数据挖掘的基础，已成为提高核心竞争力的重要技术手段。什么是ETL如果把数据仓库的模型设计比作是一座大厦的设计蓝图，那么数据就是构成大厦的一砖一瓦，而ETL就是建设大厦的过程。时代的数据魔法：ETL图：典型BI系统结构图，来源于网络根据典型BI系统结构图我们可以看出，ETL（Extraction-Transformation-Loading）是数据仓库获取高质量数据的关键环节，也

2020-07-18 16:20:49 363

原创数据挖据---机器学习平台之H2O架构/接口/实践

上一章介绍了H2O的使用，这次来学习学习H2O架构接口和实践。1，H2O架构关于H2O架构，很多资料也有说明，这里我们一起来看看官网上的介绍。最上面的是客户层，即接口交互层，H2O支持JavaScript，R，Python，Excel，Tableau，Flow等多种形式的外部交互。下面那个可以理解为H2O的关键引擎层，JVM Components，每个JVM进程被分为三层:语言，算法，核心架构，负责执行引擎，算法引擎，数据引擎，任务处理引擎：Rapids Expression Evaluatio

2020-05-24 11:00:02 986

原创方差、协方差和协方差矩阵

上次写了相关系数，其实很类似的一个概念是协方差。要说协方差，先复习下基本的统计内容1. 均值2.方差（标准差、标准方差）或者写为：简单来说，标准差是一组数值自平均值分散开来的程度的一种测量观念。一个较大的标准差，代表大部分的数值和其平均值之间差异较大；一个较小的标准差，代表这些数值较接近平均值。如果是样本...

2019-12-28 13:28:50 12153 1

原创数据挖掘---AutoML平台之H2O

关于AutoML在机器学习ML的实践中，参数是其中一个很重要的环节，学习的初始阶段参数怎么给，是默认值，随机值，还是有特点规律的参数，学习过程中，参数怎么调整，参数规模等等一序列的问题，是ML绕不过去的坑，也是机器学习当中很重要的很乏味很无赖的一个课题。怎么解决这些痛点，怎么能够自动优化参数，减少人工调整参数，对机器学习也是一个不小的挑战。AutoML应运而生，一般是指尽量不通过人来设定超参数，...

2019-08-03 17:33:46 2711

原创数据挖掘---深度学习之TensorFlow（三）

深度学习之TensorFlow学习（三）1，CNN2，RNN3，GANTODO

2019-08-03 16:04:51 315

原创数据挖掘---深度学习之TensorFlow（二）

深度学习之TensorFlow学习（二）重要概念复习：激活函数（Activation Functions）卷积函数（Convolution）池化函数（Pooling）损失函数（Losses）TODO

2019-08-03 16:01:52 436

原创数据挖掘---深度学习之TensorFlow（一）

TensorFlow学习（一）TensorFlow安装TensorFlow基本概念TensorFlow简单例子数学公式TensorFlow安装在centos上面体验，使用的是Anaconda的方式，里面自带了很多默认的学习工具包，不需要在下载，当然没有搞GPU（以前旧版本的python要小心，由于墙的原因，很多在线下载的都用不了，找到下面这个合适的） wget ht...

2018-06-10 12:42:37 1823

原创人工智能漫谈

人工智能漫谈最近人工智能的话题也是相当的火热，看了一些书之后，自己总结了一些看法和思考，记下来备忘。三次浪潮知识表示发展方向种种疑虑人工智能三次浪潮一般认为，人工智能发展是随着现代计算机发展而出现的新学科。随着人们对效率的追求，人们急切的盼望计算机能够代替人来做很多工作，将人类解放出来。第一次计算机浪潮是20世纪50-60年代，计算机在解决“推理和搜索”问题上吸引了人...

2018-03-15 16:11:15 946 1

原创数据处理-Spring Batch Scaling and Parallel Processing

承蒙各位抬爱，鄙人的一篇关于Spring Batch的博客《Spring Batch之进阶》有很多人浏览。说明有很多人工作中用到这个spring batch框架进行批量任务处理，也说明对这个框架还有不少不熟悉的地方，鄙人也是。That is to say，我们有必要加强学习，不然三天不学习，赶不上×××。这里就来继续说说Spring Batch Scaling and Parallel Proce

2018-02-07 17:19:17 760

原创数据处理---那些年遇到的SQL汇总

那些年遇到的SQL问题真的不少，各种类型的，有面试的时候遇到的SQL，有开发的时候遇到的，有性能优化的时候遇到的，还有在网上看到的各种资料的，林林总总，问题不少，这里做个汇总，从以下几个方面说下：1，各种SQL语句；2索引和SQL性能Explain；3 JOIN相关，为了忘却的的纪念：1，各种常见SQL语句各种Join：内联接，外联接(LEFT OUTER JOIN,RIGHT...

2018-01-09 11:43:48 515

转载数据处理-Spark Worker工作流程图启动Driver源码解读

Spark Worker原理和源码剖析解密：Worker工作流程图、启动Driver源码解密。转载自：https://jingyan.baidu.com/article/f96699bbdeafbd894f3c1b7a.html方法/步骤1Worker中Driver和Executor注册过程Worker本身核心的作

2018-01-05 09:47:18 720

原创数据存储---Mysql双机互为热备方案实践

Mysql作为一个流行的数据库，对于怎么样构建高性能、高可用、可扩展的MySQL集群，的确是一个讨论很多的话题。方案多种多样，看到知乎上面的https://www.zhihu.com/question/21307639，这些方案应该说都有道理，但是都有缺点，由于CAP的原因，很难鱼和熊掌前的兼得。把二楼的回答稍作修改摘录如下： 1. 做读写分离，关于这方面的原因解释太多次数（增...

2018-01-03 13:15:19 2865

原创 Keepalived+Nginx高可用配置

很久就想试试Keepalived+Nginx高可用怎么配置，一直没有动手。正所谓纸上得来终觉浅，绝知此事要躬行。So let's go, step by step.主要需要Keepalived+Nginx+Apache，所以要安装这几个。我用的centos7的虚拟机。IP和端口规划如下：作用IP端口web192.168.37.1288828

2017-12-27 14:53:06 2258

原创数据存储---GreenPlum实践

GreenPlum作为一个很好的开源的数据仓库,一直想体验一把,最近装了一个.关于安装,网上资料介绍也多了不少,至少越来越多,不过真正装一把才知道还是有各种坑的,不是那么一帆风顺的. Greenplum在线安装文档 http://gpdb.docs.pivotal.io/500/install_guide/prep_os_install_gpdb.html#topic8

2017-10-06 22:14:35 2197

原创数据存储---REDIS cluster

好久没有写了，还是慢慢拾起来吧。前面很早就说过要搞个redis cluster，这次我们就来一个。下面记录下我的操作。一，基本操作1，新建用户groupadd zookeeperuseradd -g zookeeper -G zookeeper -d /home/zookeeper zookeeperpasswd zookeepergroupadd redisuseradd -g redis -G...

2017-09-01 15:13:41 671

原创数据挖掘---分类算法之SOFM算法

生物学研究表明，在人脑感觉通道上，神经元的组织原理是有序排列的，输入模式接近，对应的兴奋神经元也相近。大脑皮层中神经元这种相应特点不是先天形成的，而是后天的学习自组织形成的。对于某一图形或某一频率的特定兴奋过程是自组织特征映射网中竞争机制的生物学基础。神经元的有序排列以及对外界信息的连续映像在自组织特征映射网中也有反映，当外界输入不同的样本时，网络中哪个位置的神经元兴奋在训练开始时时随机的。

2016-10-04 22:35:17 8354

原创数据挖掘---分类算法之朴素贝叶斯算法

贝叶斯分类是一种统计学分类方法，在分类问题中表现出良好的性能。很明显朴素贝叶斯基于贝叶斯定理，下面来简单复习下贝叶斯定理。在说之前我们来看下条件概率的计算，所谓"条件概率"（Conditional probability），就是指在事件B发生的情况下，事件A发生的概率，用P(A|B)来表示。现在需要计算在事件B发生的情况下，事件A发生的概率。有了这个之后，我们可以对对条

2016-10-04 22:19:31 1997

原创数据挖掘---分类算法之K近邻（KNN）算法

K近邻(k-Nearest Neighbor，KNN)分类算法，是一个理论上比较成熟的方法，也是最简单的机器学习算法之一。该方法的思路是：如果一个样本在特征空间中的k个最相似(即特征空间中最邻近)的样本中的大多数属于某一个类别，则该样本也属于这个类别。 KNN 算法本身简单有效，它是一种 lazy-learning 算法，分类器不需要使用训练集进行

2016-08-31 13:51:27 2163

原创数据挖掘---分类算法之支持向量机实践

有了前面两篇的介绍，相信你对支持向量机有了更多的理解。这里我们一起来说说关于支持向量机代码实践那点事。有很多方式可以做到，我们这里还是举例说明下：1，使用libsvm2，使用R3，使用SPSS还有更多的方式，例如mahout,spark MLlib等等。后面有机会都列出来。

2016-08-31 13:44:44 837

原创数据挖掘---分类算法之支持向量机SVM

上篇已经简单的说了下支持向量机的理论，里面有不少公式，需要肯学习的你一步步的推导试一试，说实在的还是挺能考验数学能力的，当年俺老孙就是一步步的推导过。只有这样你才能对这个过程有清晰的认识，才能对这个算法有所体会。下面来举个例子，所说用支持向量机解决异或问题。这个例子是在一个书上看到的，摘录下面希望能够加深对支持向量机的理解。（部分公式不好编辑，所以直接截图，为了和截图的字体大

2016-08-15 14:58:19 3868 1

原创数据挖掘---分类算法之支持向量机SVM

这篇来说说支持向量机，说实在的，这个是我的最爱，一直比较看好这个算法，而且也是花了不少时间在这个上面，下面一起来复习下。基于统计学习理论的支持向量机算法是现代智能技术中的重要方面，研究从观测数据（样本）出发寻找规律，利用这些规律对未来数据或无法观测的数据进行预测。与传统统计学相比，统计学习理论（Statistical Learning Theory，SLT）是一种专门

2016-08-07 21:26:16 3157 3

原创数据挖掘---分类算法之神经网络算法BPN实践

有了上篇的基本理论之后，我们可以尝试去代码实现基本的一个BPN算法。具体的算法代码，后面给出。就像前面说过的，有几个东西需要调节注意的，学习率和惯性因，初始权值和阈值，收敛误差界值Emin。这几个问题其实是很多类似算法都遇到的问题，细节这里不多说。除了自己代码实现外，还有很多工具可以帮助我们实现和理解神经网络算法，现在举例说明下。 1

2016-08-07 21:13:40 2038 1

原创数据挖掘---分类算法之神经网络算法BPN

有段时间没有写了，觉得很有必要继续加油写下去。一直有想梳理下主要的机器学习算法了，做一个从各个主流算法到新兴的算法，都做一番回顾，理论结合代码实践，做一个复习，毕竟温故而知新。顺便说下，什么机器学习，数据挖掘，人工智能，这几个词语很多，也很容易用的模糊了，边界不是很清晰，我也不想做过多的解读与区分，免得弄巧成拙，或者班门弄斧。还是埋头实践吧。后面的几篇主要从这么几个类别来整理：

2016-08-07 20:22:22 15003 3

原创数据处理---Spring Batch之进阶

有了前面两篇的基础之后，我们一起来聊聊更高级的关于Spring Batch的话题。比如Job 配置；自定义各种Listener；控制步骤流程；自定义Reader,Processor,Writer；并行处理。这些东西在Spring Batch的使用中很多可能会需要的，当然还有更多的内容，最好找下文档，这样上手就快很多。

2016-07-06 18:40:52 36693 13

原创数据处理---Spring Batch之实践

上面介绍了Spring Batch的基本概念和简单的demo项目，显然这些还是不够实际使用的。下面我们来更多的代码实践。在上面的基础项目上面，我们来更多的修改：不用项目默认的hsql DB，用mysql,让ItemReader,ItemWriter 支持mysql；支持总结处理结果自定义保存到数据库，我们用项目里面的JPA；

2016-07-04 17:31:18 7240 1

原创数据处理---Spring Batch之基础

Spring框架提供了强大的底层结构，基于此，Spring出现了很多方面的应用。Spring Batch就是其一，它是一个轻量级的，完全面向Spring的批处理框架，可以应用于企业级大量的数据处理系统。Spring Batch以POJO和大家熟知的Spring框架为基础，使开发者更容易的访问和利用企业级服务。Spring Batch可以提供大量的，可重复的数据处理功能，包括日志记录/跟踪，事务管理

2016-07-04 15:07:25 3746

转载大数据不是神话，不是泡沫，是在其上构建的创意和生意(转载)

大数据不是神话，不是泡沫，是在其上构建的创意和生意(转载，有节删，原文链接http://developer.51cto.com/art/201511/497883.htm)大数据仍然是巨人游戏每次重要的技术革新都带给市场一次重新洗牌的机会。这次革新体现尤为突出，值得注意的是这次变革开源社区一开始就参与进来，并且始终在技术层面上推动。这一点不同造成影响非常深刻，甚至改变了游戏规则。第

2016-06-29 17:02:26 670

原创数据提取-Selenium专治各种顽固性客户端

说起Selenium，很多人想到的是Selenium用在自动化web测试上，的确，Selenium是一个很好的自动化测试工具，能够实现很多便利的测试功能。其实Selenium也是一款数据抽取的神器。我们知道现在很多网站使用了很多javascript，ajax,cookie,session等等，或者人为设置了很多规则来防止/限制爬虫，有过提取数据的都知道在提取数据的过程中，会遇到各种顽固性问题，想上

2016-04-26 22:32:53 2558

原创数据提取----httpclient,htmlparser,xpath

网页数据提取的方法很多，从其基本原理来说很多就是通过模拟http请求，发送给服务器，然后接收响应，解析响应的结果。整个过程说简单也简单，说复杂也复杂。这里来整理下做过的一些事，走过的路，遇到的坑。1，基本思路这里举一个java下载的例子，说明简单的思路。public void downPDF(String urlString, String filename, String p

2016-04-24 22:53:12 2020

原创数据时代的平台架构项目开发那点事

上面的一篇说了大数据项目平台架构方面的一些名称，后面也会继续添加补充。这里还是技术说说大数据项目那点事。很多中小型公司一直很纠结，什么是大数据，怎么搞大数据，大数据能高出什么名堂，上了之后真的能带来好处吗......凡此种种，问题多于牛毛，结果可想而知。上面的领导不知道该不该搞，不知道怎么搞，不要知道能不能搞得好，往往就是拍脑袋，说好听了是摸石头过河，说不好听就...

2016-04-24 22:15:22 822

原创数据时代的平台架构之闲言碎语

博客的主要思想就是定位在数据时代的各项技术，现在如火如荼的云计算，大数据，各种名词，各种技术，各种架构，眼花缭乱，令人应接不暇，这里来一起梳理下云有关的主要技术：（说明，下面很多摘自网上就各项技术的介绍，并非全部实践过，部分加上自己的理解） 1、OpenStack OpenStack是一个开源的云计算管理平台项目，由几个主要的组件组合起来完成具体工作。Open

2016-04-17 22:00:39 732

原创 HBase---Phoenix(SQL on HBase)

前面说过，HBase的是一个Key-Value的数据库，很多简单的SQL都没有，想做些查询都不方便，这里来介绍下Apache的Phoenix。 Phoenix，由saleforce.com开源的一个项目，后又捐给了Apache。它相当于一个Java中间件，像使用jdbc访问关系型数据库一些，访问NoSql数据库HBase。Phoenix可以看作是一个JDBC的驱动封装，实现了很多常

2016-03-30 21:43:03 937

原创 HBase--Coprocessor协处理器

前面说过，Hbase做聚合，分组之类的运算很不方便，更不要说join之类的，更是麻烦。有没有好点的办法呢？这里介绍下HBase--Coprocessor。Hbase有两种类型的Coprocessor，为：Observer Coprocessors 和Endpoint Coprocessor，前者类似触发器，在特定的事件发生时候触发，后者类似存储过程，执行数据计算。观察者协处理器在很多地方可能用

2016-03-29 22:38:10 1780

原创 HBASE--数据操作，MapReduce

前面已经对HBASE有了不少了解了，这篇重点在实践操作。HBase本身是一个很好的Key-Value的存储系统，但是也不是万能的，很多时候还是要看用在什么情形，怎么使用。KV之类的数据库就是要应用在这类快速查找的应用上，而不是像传统的SQL那样关联查询，分组计算，这些可就不是HBase的长处了。下面先来观察下HBase的基本操作和存储，然后介绍下基于HBASE的MapReduce怎么写，在一些应用

2016-03-13 15:22:35 738

原创 HBASE---数据存储实践

HBASE(来自Hadoop database)是一个很好的BigTable的实现，能够存储上百亿行和百万列的数据，是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统。 HBASE的基本架构组成如下： HBASE使用zookeeper作为协调服务，每个时刻只有一个HMaster在运行，HMaster来负责维护表和元数据（包括region），而不负责

2016-03-13 13:48:40 613

R统计语言教程.pdf

数据分析师成长之路1218.pdf

空空如也