自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(39)
  • 资源 (5)
  • 收藏
  • 关注

原创 大数据风控---美国Capital one商业模式分析

前言capital one 作为全球消金、互金和银行信用卡中心学习的典范, 国内众多消金和互金的CRO和从业者均出自capital one;带笔者入行的老师也是capital one 的大咖、华人在capital one 的最高职位者。下面将解析一下capital one 的商业模式和大数据风控模式,希望对你有所启发。一、Capital One概况及成长史1988年,美国的大部分信用卡...

2020-10-09 23:23:45 7929 2

原创 大数据风控---风险量化和风险定价

前言金融的本质从宏观上讲,第一:为有钱人理财,为缺钱人融资;第二:信用,杠杆、风险;第三:为实体经济服务,不然就是泡沫,微观上讲就是经营风险。在经营风险的过程中,风险定价是核心,指对风险资产价格的确定,它所反映的是资本资产所带来的未来收益与风险的一种关系,将风险偏好不同的资金供给方和资金需求方匹配起来,一般来说,两者成正向关系,风险越大,溢价越大,收益越高。而信贷的核心是风险管理,反映在风险定...

2019-08-28 14:19:18 25603 3

原创 大数据风控---身份反欺诈信贷全流程常用指标及策略

前言反欺诈的本质更多的是校验借款人的身份,也就是证明你就是你,我就是我。反欺诈也有很多金融术语(参见:https://zhuanlan.zhihu.com/p/26197949),也便于我们更清楚欺诈风险点。针对信贷业务,主要有两种风险,欺诈风险和信用风险,从造成的损失来看欺诈风险是公司损失的主要风险;当前网络的欺诈从业人数超过200万,网络诈骗的市场规模约1200亿,因为骗贷、套现等手段造成...

2019-07-31 17:23:52 17497

原创 Pyhon轻松实现大数据风控模型开发-toad库

​前言同业小伙伴都知道信贷风控界有一个库叫做Scorecardpy,作者是谢士晨博士,就不在赘述。今天为读者介绍另一个同样用于开发评分卡的标标准化评分卡建模模块---toad库:toad是由厚本金融风控团队内部孵化,后开源并坚持维护的标准化评分卡开发库。其功能全面、性能稳健、运行速度快、问题反馈后维护迅速、深受同行喜爱。toad库可实现标准化的信用评分开发,极大简化我们的建模构建和缩短建模周期,只介绍toad库做评分卡模型框架,详细内容请拿数据自己模拟调试,因为作者也比较懒。#!/usr/bi

2021-03-11 10:47:46 2487

原创 金融信贷存量客户运营管理

前言近几年随着消费金融在我国的快速发展,银行零售业、消费金融公司、互联网金融等迎来了一个爆发式的增长,人均授信总额不断增加即居民杠杆率持续攀升。伴随着市场竞争日趋激烈、客群不断下探、监管收紧的大背景下,互联网金融、小贷公司、P2P行业洗牌和业务调整,将会导致次级下沉客户向银行、持牌消费金融公司传导,使共债风险持续增加、坏账率增高。因此,新客带来的业务增加将会遇到一个瓶颈期,各大金融机构缩减新客获取,至此国内消费金融市场将进入存量客户精细化运营管理时代。一.存量客户精细化管理的必要性1、新户成本上

2020-10-09 14:22:45 7665

转载 大数据风控---消费金融业务全流程风险解析

前言在消金企业里,最核心的运作部门主要是营销、风控以及产品。营销和风控:两者既对立又互相依赖,若没有足够的客户,风控便无法发挥作用,而有了坚实的风控后盾,才能可持续的拓展业务并维护下去。而产品部门则是结合现有客群以及辅助风控部门,制定规则、调整产品,定义目标客群。简单来说,消费金融的风控就是对客户不还钱的可能性做侦查、判断并对其管控。需要考虑的就是这个客户的还款能力、还款意愿以及公司的政策...

2019-09-05 16:36:59 6668 1

原创 大数据风控---Credit Kama商业模式分析

前言之前介绍了美国Capital one的商业模式,今天介绍美国另外一家金融创新公司,Credit Karma。Credit Karma,Karma 即为 “因果报应” 的意思,创始人最开始是希望自己能从帮别人省钱这件事情上,得到好的因缘。Credit Karma使用户能够更便利地免费获得个人信用评分,这些评分用以确定个人的贷款利率和借贷限额。个人信用评分以一些重要信用评级机构的贷款偿还...

2019-08-13 14:31:53 4349

转载 Excel---几乎可以解决80%的数据统计工作的16个Excel函数

前言在日常工作中,数据统计是工作中最重要的一部分。今天把Excel中最常用的统计函数整理了出来,共16个。为了方便同学们理解,选取的全是贴近应用的示例。1、Count 函数作用:统计数字的个数示例:使用公式生成A列的序号=COUNT(A$1:A1)+1注:大小不一的合并单元格填充公式,要使用Ctrl+Enter完成。2、Counta函数作用:统...

2019-08-09 14:56:28 1257

转载 Python---快速入手pandas进行数据分析

前言不废话,直接盘加载模块import pandas as pdimport numpy as np导入数据 pd.read_csv(filename,dtype=str):从CSV文件导入数据 [header=1,delim_whitespace=True,delimiter="\t",parse_dates=['OCC_TIM'],error_bad_l...

2019-07-30 09:51:12 386

转载 140种Python标准库、第三方库和外部工具模块

前言信息量过于庞大,只能上链接;可以点击进去按照需求,ctr+F进行检索查询。原文链接:https://mp.weixin.qq.com/s/Qp12DRURa2I9AVjQ7gpxVw

2019-07-26 11:17:07 239

原创 R & Python 功能模块对比

前言作为一个统计出身,对R其实是情有独钟的;但近2年因为工作需要接触到Python,只想说Python在公司运营实践中真的灵活好用,建模和模型部署都非常的棒。R语言更多偏向学术和教学,Python与java、C++等兼容性更好,使得Python的使用率更高。其实楼主见过很多统计大咖,他们都用C语言来写计算逻辑的,不服不行。1.功能模块2.算法模块...

2019-07-26 11:00:08 274

转载 Linux---定时任务调度常用指令

前言​ Linux---定时任务调度,指的是系统在某个时间段执行特定的命令或程序。1、数据库的定时备份、同步抽取操作2、系统定时触发的重复工作,如病毒扫描、黑名单更新扫描、重复进件3、和Python脚本集合,执行定制化的监控功能,比如:每日、每周、每月的监控报表邮件等crontab任务调度用法crontab 【选项】crontab -u //设定某个用户的cron服...

2019-07-25 17:41:24 784

转载 Linux---在大数据风控运营中常用指令

前言在大数据风控领域,Linux运用主要是运维使用较多,比如:1.实现数仓的定时调度,2.将Python模块部署到服务器实现定时邮件监控,3.搭建数据分析平台,4.线上数据库运维等,下面将介绍Linux在大数据风控领域日常的运用实践。Linux经常使用的命令汇总1.文件和目录cd /home 进入 '/ home' 目录'cd .. 返回上一级目录cd ../.. 返回上两级...

2019-07-25 16:55:32 463

原创 大数据风控---互信息及Python实现

前言信息增益表示得知特征空间X的信息而使得类Y的信息不确定性减少的程度。信息增益依赖于特征,不同的特征往往具有不同的信息增益,信息增益大的特征具有更强的分类能力。在概率论和信息论中,两个随机变量的互信息(Mutual Information,简称MI)或转移信息(transinformation)是变量间相互依赖性的量度;不同于相关系数,互信息并不局限于实值随机变量,它更加一般且决定着联合分布...

2019-07-22 18:44:57 12703 5

原创 大数据风控---信用模型新老模型对比

前言一个模型部署上线之前,我们要进行更新迭代,如何对新老模型做一个效果对比分析呢?下面将介绍几个常用的方法方法一:常用的模型评估指标,如:ROC、AUC、KS、Gini值越大,区分度越高,模型效果越好;RMSE,越小模型越好;方法二:简单易懂可解释性强法将建模样本、test样本或者OOT(out of time)数据,根据模型评分大小顺序排序,切分成20等分,计算每组的标签客户...

2019-07-18 14:08:58 1020

原创 大数据风控---Vintage在金融信贷领域的运用实践

前言vintage这个词源于葡萄酒业,意思是葡萄酒的酿造年份,主要用来分析和管理葡萄酒年份对于酒的品质影响问题研究。在现代金融领域,同理,在比较放贷质量的时候,按账龄(month of book,MOB)的长短同步对比,从而了解同一产品不同时期放款的资产质量情况。vintage是用来监控、预测和分析资产质量好坏的重要手段和依据,是风险量化和精细化管理的重要指标。 1.vintage...

2019-07-16 09:05:08 11621

原创 Python数据分析---Mysql数据库连接

前言Python 连接数据库是我们公司级做数据分析的基础1.SQLAlchemySQLAlchemy是一个“pythonSQL工具包和对象关系映射器”(ORM),目的是当使用SQL数据库工作时会使事情变得简单起来。#step1:加载模块import pandas as pdimport MySQLdbimport pandas.io.sql as psql#step2...

2019-07-12 17:27:40 659

原创 python ---测算代码运行时间

前言为了提高代码的运行效率,需要测算每一步的运行时间。####jupyter notebook 版本1.单次运行时间%%timemuch_job = [x**2 for x in range(1,10000000,4)]2.测算代码多次运行平均时间%%timeit -n 10g= lambda x:x**3+3def main(): return(g(2)...

2019-07-11 11:14:46 466

原创 Python 内置函数 filter()、map()、reduce()的使用对比

前言filter(), map(), reduce()三个内置函数在我们数据过滤、清洗和映射中发挥着重要的作用1.filter(function, iterable)function -- 判断函数。 iterable -- 可迭代对象。你可以把 filter 当成一个过滤器,用来选择原来 list 中满足特定条件的 valuedef f(x): return x %...

2019-07-09 21:18:25 413

原创 Python 数据顺序和分位数排序等分成20分

前言数据切分#方法1:#随机生成0-100的整数number=[]for i in range(0, 100): # 3.生成随机数 num = np.random.randint(0,100) # 4.添加到列表中 number.append(num)print(number)#切分成等分20份number1=pd.qcut(number,...

2019-07-09 15:07:12 5215

原创 Python DataFrame基本操作总结

前言python中DataFrame是我们进行数据分析和建模过程中使用度最频繁的1.构建DataFramepandas.DataFrame(data=None, index=None, columns=None, dtype=None, copy=False)data:numpy ndarray(结构化或同类),dict或DataFrame,Dict可以包含Series,数组,常量...

2019-07-09 14:50:13 2492

原创 Python Numpy常用使用技巧

前言NumPy是一个功能强大的Python库,主要用于对多维数组执行计算。NumPy这个词来源于两个单词--Numerical和Python。NumPy提供了大量的库函数和操作,可以帮助使用者轻松地进行数值计算。这类数值计算广泛用于以下任务: 机器学习模型:在编写机器学习算法时,需要对矩阵进行各种数值计算。例如矩阵乘法、换位、加法等。NumPy提供了一个非常好的库,用于简单(在编写代码...

2019-07-09 11:37:48 527

原创 python pandas常用语法与实操

前言由于工作的原因,现在使用R较少,使用Python的频率较高,将给大家分享在工作中用到python使用技巧和相关的代码。安装Anaconda64, 推荐使用jupyter notebook或者Spyder来做数据分析和建模,开发建议使用Pycharm1、安装pandaswin+R---->cmd , 或者从Anaconda Prompt启动安装pip install ...

2019-07-05 19:33:27 1738 1

转载 R 语言快速构建信用评分卡模型---scorecard包

前言R 语言快速构建机器学习,基于某大佬的scorecard包。# github主页- R版: http://github.com/shichenxie/scorecard# 加载[data.table](http://r-datatable.com)与scorecard包library(data.table) # 一个超高性能的数据处理包library(scorec...

2019-07-03 16:57:00 3813 1

原创 R 语言连接数据库(mysql & oracle)

#连接oraclelibrary(RJDBC)drv<-JDBC("oracle.jdbc.driver.OracleDriver","ojdbc6_g.jar", identifier.quote="\"") ##java中JDBC的套路conn<-dbConnect(drv,"jdbc:oracle:thin:@172.18.10.77:1521","test","te...

2019-07-02 10:27:16 234

转载 R语言建模---Home Credit Default Risk

前言这是kaggle上关于Credit Risk的一个建模流程,其中非常有重要参考价值的点在于其衍生变量构造这个板块,值得我们借鉴。#数据下载地址:https://www.kaggle.com/c/home-credit-default-risk/data###########建模流程#############加载需要使用的包library(tidyverse)librar...

2019-07-02 10:25:03 1200 2

原创 R---逻辑回归模型流程

#工作路径设置setwd('C:\\Users\\Documents\\R语言') data<-read.csv("logitcredit.csv",header=T)str(data)n<-nrow(data)n# ####定义变量角色 --------------------------------------------------------------...

2019-07-02 10:18:13 1733 2

原创 R语言机器学习建模标准流程

前沿统计学习是机器学习的基础,机器学习的方法代表了统计的最新发展,二则都是包含于数据科学之中;传统的统计模型大多对数据有一定的要求或者假设,模型本色也有比较明确的数学形式,模型的优劣主要依据对数据的分布假定得到的检验来判断;真实世界的数据分布做任何假设,因为更加的抽象和充满不确定性,高度非线性,难以用有限的数学公式来描述。机器学习对数据没有任何假定,产生的结果用交叉验证的方法来判断,摆脱了假设...

2019-07-01 15:05:06 3386

原创 R语言 基本语法和入门资料学习参考

前言首先介绍一下R语言的基本语法结构,现在文章和书籍都非常的多和完善了,楼主接触R语言(2013)还不是很热门,看了非常多的资料花了不少钱买书,如果有想看的R语言的书籍可以给我留言要看的书籍名称或者私信我,我尽量分享电子书给大家。后面将更新使用R语言做数据分析、数据挖掘和机器学习等。分享基本R语言常用的几本书,供大家学习。知识在于分享,独乐不如众乐。R语言软件安装:软件安装基本语法参考...

2019-06-26 16:40:15 1294 1

原创 通过身份证号码特定编码进行多样化统计分析

前言构成地址码  (身份证前六位)表示编码对象常住户口所在县(市、旗、区)的行政区划代码。生日期码  (身份证第七位到第十四位)表示编码对象出生的年、月、日,其中年份用四位数字表示,年、月、日之间不用分隔符。例如:1981年05月11日就用19810511表示。顺序码  (身份证第十五位到十七位)为同一地址码所标识的区域范围内,对同年、月、日出生的人员编定的顺序号。其中第十七位...

2019-06-25 10:20:08 480

原创 mysql和oracle常用日期函数总结

前言日期处理是一个比较繁琐的事情,通常可以针对具体问题百度和查询资料进行处理,所谓:具体问题,具体分析一、mysql常用处理函数SET @dt = '2019-06-24';--设定具体某一天时间1.extract(属性 from date)从时间中截取固定属性的日期,可以直接运行下面代码,获取自己所需的逻辑SELECT EXTRACT(YEAR FROM '2017-0...

2019-06-24 18:00:13 5051

转载 mysql和oracle时间处理对比分析

前言在日常当中我们经常涉及通过时间来提取相关数据,下面将总结mysql和oracle常用时间处理方法一、MysqlSELECT NOW() FROM DUAL;-- 获取当前日期时间备注1:-- 在MySQL里也存在和Oracle里类似的dual虚拟表:官方声明纯粹是为了满足select ... from...这一习惯问题;SELECT NOW();-- 不适用DUAL这个虚拟...

2019-06-24 16:35:22 4172

转载 mysql语句查询优化技巧

检查问题常用的 12 个工具:MySQL mysqladmin:MySQL 客户端,可进行管理操作 mysqlshow:功能强大的查看 shell 命令 SHOW [SESSION | GLOBAL] variables:查看数据库参数信息 SHOW [SESSION | GLOBAL] STATUS:查看数据库的状态信息 information_schema:获取元数据的方法 S...

2019-06-18 14:19:58 136

转载 Hive以及常用函数介绍和总结

前言hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供简单的sql查询功能,可以将sql语句转换为MapReduce任务进行运行。 其优点是学习成本低,可以通过类SQL语句快速实现简单的MapReduce统计,不必开发专门的MapReduce应用,十分适合数据仓库的统计分析。Hive是建立在 Hadoop 上的数据仓库基础构架。它提供了一系列的工...

2019-06-16 15:16:36 2770

原创 MYSQL---基础运用

前言MYSQL是数据分析师、建模工程师、算法工程师和数据科学家最最基本的能力,但是也是应该最广的基本技能之一,可以说是可以伴随我们整个技术人的整个职场生涯,鉴于非常多的大咖已经做了很多优秀的总结,我仅进行一些汇总工作,站在前人的肩膀之上才能看得远,后面我会分享很多原创信息。一.入门学习建议文章链接:SQL入门学习建议二.教学教程教程1:MYSQL教程-菜鸟教程教程2:MyS...

2019-06-14 19:24:06 431

转载 数据分析(三)---数据库安装

前言如前文介绍,数据库的类型主要有Oracle、SQLServer、MySQL、PostgreSQL,一般公司都会有专门的数仓管理人员进行相关的搭建工作,我们着重强调后续的运用。一、数据库安装1.以MySQL为例引用链接文章:MySQL基础知识-安装MySQL...

2019-06-11 20:23:33 154

原创 数据分析(二)---HBase库介绍

前言 在传统运用中,我们主要以线上MySQL库为主,T+1备份到线下的Oracle库的方式实现数据存储的最优方案,这些传统数据库是基于表格结构和行存储,其没有建立索引将耗费大量的I/O并且建立索引和物化试图需要耗费大量的时间和资源;而HBase是基于列存储的,每个列族都由几个文件保存,不同列族的文件是分离的,这样的好处是数据即是索引,访问查询涉及的列大量降低系统的I/O,并且每一列由...

2019-06-11 20:22:34 306

转载 数据分析(一)---关系型数据库介绍

前言MYSQL是我们做数据分析的重要基础,所以强大的SQL能力是你走天涯的必备武器,下面将系统介绍MYSQL库,安装、日常使用语法和语法优化等。一、Oracle、SQLServer、MySQL、PostgreSQL数据库对比分析1.OracleOracleDatabase,又名OracleRDBMS,或简称Oracle。是甲骨文公司的一款关系数据库管理系统。它是在数据库领域...

2019-06-11 17:49:33 2246

转载 Excel在数据分析和日常工作的运用

前文概要 Excel作为日常使用率较高的工具,不仅提供了强大的数据处理函数,同时也提供了编程功能,实现定制化的数据处理能力,下面将简要介绍excel在我们日常工作中涉及到的数据处理功能,欢迎大家补充;我常用的处理方法是遇到问题才去查询,但是这样效率会比慢,不如平时积累一些。一、Excel数据分析常用函数汇总excel的函数使用非常的多,如下将总结和介绍我们常用的函数介绍,欢迎...

2019-06-11 16:15:28 24955 7

解密万亿独角兽——蚂蚁金服企业案例研究.pdf

马上金服企业案例研究分析,详细解剖了蚂蚁金服这家的公司的商业体系

2019-08-21

40家银行信贷产品.pdf

40家银行信贷产品的产品设计模式、政策策略等,对于中小微企业具有借鉴意义

2019-07-29

优雅高效地数据挖掘_基于SklearnPandas库

数据挖掘和数据分析,sklearn,pandas等。。。。。。。

2018-05-03

金融计量学

金融计量学的经典之作。。。。。。。。。。。。。。。

2018-05-03

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除