机器学习
文章平均质量分 93
白白的一团团
这个作者很懒,什么都没留下…
展开
-
风控建模十一:利用外部数据联合建模时,如何选择样本
在能看到外部数据的情况下,应该如何选择建模的样本,关注哪些问题,才能让我们尽可能全面地了解外部数据并避免建模中的各种问题。原创 2022-06-12 22:42:11 · 1851 阅读 · 0 评论 -
风控建模十:传统建模方法存在的问题探讨及改进方法探索
传统建模方法存在的问题探讨及改进方法探索原创 2022-06-09 11:42:00 · 1792 阅读 · 0 评论 -
因果模型五:用因果的思想优化风控模型——因果正则化评分卡模型
因果模型五:因果模型在金融风控评分卡中的应用——因果正则化的稳定评分卡模型一、主要内容二、基本思想我们调研因果模型的出发点在于要以一种新颖的因果视角去解决金融领域模型存在的问题,所以我们的落脚点也应该在如何应用因果的思想或方法,去提高评分卡模型的精度或者稳定度。这个领域的相关文献较少,近期调研到一篇由光大科技发表的因果正则化稳定评分卡模型的文章,和大家简单分享。一、主要内容本篇文章提出了一种新颖的评分卡模型——稳定评分卡模型SSCM(Stable Scoring Card Model),该模型和传统评原创 2022-05-01 13:01:03 · 3671 阅读 · 6 评论 -
【python】玩转数据分析、建模、人工智能常用的package整理
【python】数据分析、建模领域常用package整理一、python读取各种格式的文件1、pdf文件——pdfplumber2、word文件——docx3、excel文件——xlrd一、python读取各种格式的文件1、pdf文件——pdfplumber2、word文件——docxfrom docx import Document#读取word文档document = Document('sample.docx')#获取所有段落all_paragraphs = document.para原创 2022-04-28 08:20:55 · 2111 阅读 · 0 评论 -
风控建模九:一些特征工程方法及自动化工具小结
风控建模九:一些特征工程方法及自动化工具小结原创 2022-04-06 16:02:57 · 3510 阅读 · 1 评论 -
风控建模八:搭建模型监控体系
风控建模八:模型监控1、模型监控的目的及框架结构2、前端监控模型分分布稳定性监控1、模型监控的目的及框架结构实际业务中,对于一个正在线上使用的模型,能够实时把控模型的稳定及效用是至关重要的,所以,我们需要一套完善且及时的模型监控系统来帮助我们全面掌握模型的动态,及时定位模型问题。为达到这个目的,我们的模型监控系统大致可以分为两大部分:前端和后端。简单来说,前端监控系统实时监控模型分布的整体稳定性,后端监控系统实时了解模型效果的稳定性。下面我们来看一下前后端监控系统具体都需要把握哪些维度的信息。2、前端原创 2021-06-20 23:21:41 · 5702 阅读 · 4 评论 -
因果模型四:实现因果模型的python工具——pycasual
因果模型四:实现因果模型的python工具——pycasual关于因果模型,我们在前三篇文章中简单介绍了因果模型的研究发展历程、一个因果模型的数学化求解过程和因果模型在医学和商业领域的两个应用实例。今天我们就来简单介绍一个实现因果模型的python工具:pycasual。pycasual的开发者来自于因果研究中心(Center for Casual Discovery),是一个集合了目前因果研究领域中多种主流算法的因果模型工具包。工具不仅仅局限于python语言,同样支持R语言,java命令行模式以及可原创 2021-01-16 22:56:01 · 10066 阅读 · 6 评论 -
因果模型三:因果模型在解决哪些实际问题
因果模型三:因果模型在解决哪些实际问题一、因果模型研究架构图二、因果模型的应用实例1、医学领域通过前两篇因果模型文章,我们对因果模型的发展历程和这个研究领域的常用工具都有了一个初步认识,也通过LiNGAM这样一个具体的算法模型对如何把探究因果问题抽象化为数学问题并求解的过程有了一个较为深入的了解。调研至此,在继续深入下去之前,我认为有必要先回答这样两个问题:第一,因果模型研究这个领域的一个宏观架构是怎样的?明晰这个问题,就像给我们自己一张地图一样,能让自己清楚这个领域中都有哪些方向,我们现在处在哪个位置,原创 2021-01-12 22:24:58 · 5264 阅读 · 9 评论 -
因果模型二:线性非高斯无环模型
因果模型:线性非高斯无环模型一、前提条件二、方程形式本篇主要介绍一种基于贝叶斯网络的、具体化的求解因果关系的模型:线性非高斯无环模型。主要是让我们对如何把因果关系研究抽象化为一个数学模型,以及如何求解它先有一个初步的认识。一、前提条件线性非高斯无环模型要求三个基本的前提条件:观测变量之间是存在因果顺序的,后续变量不会导致前序变量;这些变量可以用一个DAG(有向无环图)表示。变量间的因果关系是线性的,可以用如下公式描述:xi=∑k(j)<k(i)bi,jxj+ei+cix_{i}=\su原创 2020-11-29 22:20:33 · 4410 阅读 · 0 评论 -
因果模型一:因果模型入门综述
因果模型一:因果模型的发展概述一. 为什么要研究因果模型?二. 因果研究的发展历程1. C.G. Hempel 1984——因果研究的分水岭一. 为什么要研究因果模型?在现如今的互联网金融领域,我们会发现机器学习的应用套路都大同小异。不论是逻辑回归,梯度提升模型还是深度学习,本质上都是一种对观测数字的拟合手段,说到底都是在寻找事物之间的相关性信息。即便我们能拟合出一个效果逆天的模型出来,我们依然很难通过模型去解释清楚好人之所以好,坏人之所以坏的背后原因是什么。换句话说,这样的模型好用,但无法真正帮助我们原创 2020-11-24 17:11:59 · 19345 阅读 · 2 评论 -
风控建模七:拒绝推断
风控建模七:拒绝推断1、为什么要做拒绝推断1、为什么要做拒绝推断在开发准入模型的时候,我们做模型用的是通过的有表现的样本,而我们用模型是用在进件样本上,这就导致了模型开发和使用上的样本偏差。这种样本偏差有什么影响呢,我们可以从两方面去看。一从样本维度上,...原创 2020-06-28 17:39:20 · 5419 阅读 · 0 评论 -
风控建模五:GBM模型开发
风控建模二:模型训练原创 2020-05-15 18:24:26 · 6288 阅读 · 0 评论 -
【机器学习与算法】python手写算法:softmax回归
【机器学习与算法】python手写算法:softmax回归算法原理python实现算法结果展示sklearn实现softmax回归算法原理softmax回归用于解决多分类问题。它的基本思想是计算样本属于每一个类别的概率,属于哪个类别的概率最大,则预测输出为哪一类。softmax计算概率的方式为:P(y(i)=j∣xi;θ)=eθjT⋅x(i)∑l=1KeθlT⋅x(i)P(y^{(i)}=j|x^{i};\theta) = \frac{e^{\theta_j^T\cdot x^{(i)}}}{\su原创 2020-05-12 17:36:36 · 1773 阅读 · 0 评论 -
【深度学习】TensorFlow学习之路一:TensorFlow简介及线性回归、逻辑回归实现
一、TensorFlow简介TensorFlow是啥?TensorFlow是一款强大的开源软件,用于数值计算,尤其适用于类似机器学习这样的大规模计算。TensorFlow计算流程是怎样的?...原创 2020-05-02 23:49:14 · 287 阅读 · 0 评论 -
风控建模四:逻辑回归评分卡开发
风控建模四:评分卡开发1、变量做WOE转换逻辑回归评分卡因其可解释性强、上线便捷、方便管理等特点往往成为传统金融领域风险管控模型的不二选择。本篇文章就来聊一下逻辑回归评分卡的开发流程。如果选择用python开发评分卡,经常用到的包有两个,一个是sklearn里面的LogisticRegression,一个是statsmodel里面的Logit,不管选择哪个包,我们都需要先对算法原理和拟合过程有...原创 2020-04-29 20:37:07 · 3446 阅读 · 0 评论 -
【机器学习与算法】python手写算法:Kmeans和Kmeans++算法
【机器学习与算法】用python实现Kmeans和Kmeans++算法背景K-means算法python代码结果对比背景K-Means算法因其算法简单,收敛快等特点而成为最常用的无监督学习方法之一,K-means算法过程如下:随机选取K个中心点;计算每个样本点到K个中心点的距离,离谁最近就归为哪一类;对于每一分类,计算该分类中所有点的均值作为新的中心点;重复2-3步知道中心点基本不再...原创 2020-04-13 17:50:01 · 811 阅读 · 0 评论 -
【机器学习与算法】python手写算法:xgboost源码复现
【机器学习与算法】用python实现xgboost背景知识上代码结果对比1、目标函数:linear2、目标函数:logistic背景知识关于XGB原理的解释与推导,最好就直接参看原作者陈天奇大神的PPT,这里对原理不再赘述,直接附上链接:tqchen/pdf/BoostedTree.pdf.根据PPT的内容,我们来用python对XGB算法进行一个复现,实现两种目标函数的拟合:linear...原创 2020-04-05 13:18:50 · 8528 阅读 · 26 评论 -
【机器学习与算法】python手写算法:带正则化的逻辑回归
【机器学习与算法】用python实现带正则化的逻辑回归背景代码输出结果1、两种求解方法结果:2、两种正则化结果:背景逻辑回归原理、损失函数推导、损失函数梯度推导不再赘述实现功能:1、正则化:不带正则化、L1正则化、L2正则化2、求解参数方法:梯度下降、坐标轴下降代码import pandas as pdimport numpy as npimport copyclass Lo...原创 2020-03-31 21:15:20 · 1521 阅读 · 0 评论 -
【机器学习与算法】python手写算法:Cart树
【机器学习与算法】用python实现简易Cart树背景代码输出示例背景Cart树算法原理即遍历每个变量的每个分裂节点,找到增益(gini或entropy)最大的分裂节点进行二叉分割。这里只输出最优分割变量,最优分割点,分割后的样本数、分割后的坏账率,方便用于风控决策中指定最优策略。代码import pandas as pdimport numpy as npclass CartTr...原创 2020-03-28 16:23:44 · 1002 阅读 · 1 评论 -
风控建模一:好坏标签定义
风控建模一:好坏标签定义引言一、界定天数——收回率曲线二、界定期数——vintage曲线三、好坏定义的验证——滚动率分析四、实际情况引言风控模型能够准确判别好坏的基本前提是我们精准定义了好坏样本。 如何定义好坏通常被认为是风控建模中最难的环节。在风控中,当定义风险模型标签时,我们一般会使用类似3T ever 15(该客户在3期应还之中是否有至少一笔超过15天以上的逾期表现)这样的标签来界定好...原创 2020-02-04 18:26:14 · 4345 阅读 · 1 评论 -
【python】pandas中Interval和crosstab的碰撞
【python】pandas中Interval和crosstab的碰撞pandas中的Interval简介pandas中的crosstabInterval和crosstab的冲突pandas中的Interval简介在利用pandas库做数据分析时,我们经常会用到cut和qcut功能对数据进行分组,例如我们使用qcut功能将dataframe的a列进行3等分,会得到一个Series,Series...原创 2020-01-03 23:15:11 · 1187 阅读 · 1 评论 -
风控建模三:变量筛选原则
风控建模一:变量筛选一 变量自身分布稳定性psi长期趋势图二 变量和目标值的强相关关系IV值变量数的选择好的模型变量直接决定着一个风险模型是否稳定和有效,而好的模型变量都具备以下三种特性:1、变量自身的分布是随时间相对稳定的;2、变量和目标值之间是有强相关关系的;3、变量和目标的强相关关系也是随时间相对稳定的;建模初期所有的变量筛选工作都是围绕着这三点来寻找符合这些特性的变量的。一 变...原创 2019-12-09 22:24:09 · 6567 阅读 · 3 评论