机器学习应用
猪逻辑公园
数据分析 机器学习 NLP 风控 营销推荐
展开
-
机器学习中的 Shapley 值怎么理解?
我第一次听说 Shapley 值是在学习模型可解释性的时候。我知道了 SHAP,它是一个框架,可以更好地理解为什么机器学习模型会那样运行。事实证明,Shapley 值已经存在了一段时间,它们最早起源于 1953 年的博弈论领域,目的是解决以下情况:一群拥有不同技能的参与者为了集体奖励而相互合作。那么,如何在小组中公平分配奖励?当一个「旧」概念被应用到另一个领域,如机器学习,关于它是如何获得新的应用是非常有趣的。在机器学习中,参与者是你输入的特征,而集体支出是模型预测。在这种情况中,Shapley 值用转载 2020-11-17 14:37:20 · 2903 阅读 · 1 评论 -
基于RFM的航空公司客户价值分析模型
谈到用户分类模型,最被谈及的应该就是RFM模型了。大部分人常把RFM模型挂在嘴边,而在实际使用中的却很难真正的利用起来。这里暂时不去讨论RFM是好是坏。今天的介绍的是另外一个拓展的模型:航空公司客户价值分析模型LRFCM。RFM模型的复习在客户分类中,RFM模型是一个经典的分类模型,模型利用通用交易环节中最核心的三个维度——最近消费(Recency)、消费频率(Frequency)、消费金...原创 2020-03-03 18:38:51 · 4017 阅读 · 0 评论 -
提升指数、提升表和提升图
1. 什么是Lift?I) Lift(提升指数)是评估一个预测模型是否有效的一个度量;这个比值由运用和不运用这个模型所得来的结果计算而来。II) 一个简单的数字例子:i. 比如说你要向选定的1000人邮寄调查问卷。以往的经验告诉你大概20%的人会把填好的问卷寄回给你,即1000人中有200人会对你的问卷作出回应(response),用统计学的术语,我们说baseline respons...原创 2019-10-25 11:11:15 · 1009 阅读 · 0 评论 -
GBDT+LR产生新的特征
1、背景CTR预估,广告点击率(Click-Through Rate Prediction)是互联网计算广告中的关键环节,预估准确性直接影响公司广告收入。CTR预估中用的最多的模型是LR(Logistic Regression)[1],LR是广义线性模型,与传统线性模型相比,LR使用了Logit变换将函数值映射到0~1区间 [2],映射后的函数值就是CTR的预估值。LR,逻辑回归模型,这种线性...转载 2019-06-03 15:49:12 · 642 阅读 · 0 评论 -
P会员数据化运营-案例:基于AdaBoost的营销响应预测
5.8.1案例背景该案例介绍了有关会员营销预测的实际应用。会员部门在做会员营销时,希望能通过数据预测在下一次营销活动时,响应活动会员的具体名单和响应概率,以此来制定针对性的营销策略。本案例是一个常规性应用模型,业务部门希望通过建立好的模型周期性自动执行,也满足营销需要。同时,业务部门还希望基于现有的辅助决策平台将会员数据筛选和查看功能跟该模型结合起来应用。本节案例的输入源数据orde...转载 2019-04-25 19:23:48 · 641 阅读 · 0 评论 -
社会网络分析SNA
最短路径: a path that starts at u and ends at v with the lowest total link weight.距离: the lowest total link weight between two nodes u and v in a graph.网络直径:网络中最长的最短路径距离。要考虑权重密度:指的是一个图中各个点之间联络...原创 2019-03-04 18:55:51 · 2662 阅读 · 0 评论 -
互金信用评分建模四步骤
一、数据描述数据采集具体而言,分别为交易事实表,用户信息表,商户分类信息表,以及银行卡信息表,它们之间的关系如图4所示。这四张表格分别通过不同的关键字连接,具体如下:a.用户信息表可以通过用户手机号码和交易事实表对应,一个用户手机号码对应多个交易事实记录;b.商户分类信息表可以通过商户编号和交易事实表对应,多个交易事实可能产生于一个商户编号;c.银行卡信息表可以通过银行卡的前几位数字...转载 2019-03-02 12:29:21 · 546 阅读 · 0 评论 -
申请评分卡模型中的拒绝推断(RI)技术
如果建模仅基于具有已知性能的可接受总体,则申请评分卡具有自然发生的选择偏差。然而,由于他们未知的表现,从建模过程中排除了一大批被拒绝的客户。 为了解决选择偏差问题,申请评分卡模型应该包含两个人群。 这意味着需要推断拒绝的未知性能,这是使用拒绝推断(RI)方法完成的。使用拒绝推断RI,在评分卡开发过程中还需要一些额外的步骤:在接受方上构建逻辑回归模型 - 这是base_log...原创 2018-11-30 17:32:54 · 7690 阅读 · 0 评论 -
信用评分卡模型稳定度指标PSI
由于模型是以特定时期的样本所开发的,此模型是否适用于开发样本之外的族群,必须经过稳定性测试才能得知。稳定度指标(population stability index ,PSI)可衡量测试样本及模型开发样本评分的的分布差异,为最常见的模型稳定度评估指针。其实PSI表示的就是按分数分档后,针对不同样本,或者不同时间的样本,population分布是否有变化,就是看各个分数区间内人数占总人数的占比是否有...转载 2018-11-08 14:07:39 · 12380 阅读 · 1 评论 -
信用评分模型概述
依发展母体区分通用性评分 征信机构评分 客制化评分依使用时机区分进件评分 行为评分 催收评分评分模型开发确定评分目的 建模指标的基本定义 资料准备 变量分析变量的形态分为连续变量和间断变量;单因子分析,将变量分组,分组原则为组间差异大,组内差异小。分组占率不低于5%,各组必须同时拥有好坏客户。WOE迹象全数,ln(正常件占比/违约件占比),违约件占比高时WO...原创 2018-11-06 15:40:04 · 1273 阅读 · 1 评论 -
Linux环境下的Anaconda安装及使用
安装步骤1)官网下载安装文件https://www.anaconda.com/download/2)找到安装文件所在的目录,直接使用命令./xxx.xxx执行.sh文件安装./Anaconda3-4.4.0-Linux-x86_64.sh根据安装说明,按照Anaconda默认的行为安装而不使用root权限,安装目录设置在个人主目录下。这样在同一台机器上的不同用户完全可以安...转载 2018-08-17 11:49:12 · 5718 阅读 · 0 评论 -
CTR预估中的贝叶斯平滑方法--参数估计和代码实现
1. 前言前面博客介绍了CTR预估中的贝叶斯平滑方法的原理http://www.cnblogs.com/bentuwuying/p/6389222.html。这篇博客主要是介绍如何对贝叶斯平滑的参数进行估计,以及具体的代码实现。首先,我们回顾一下前文中介绍的似然函数,也就是我们需要进行最大化的目标函数:下面我们就基于这个目标函数介绍怎样估计参数。 2. 参数估计的几种方法1. 矩估计矩估计在这里有...转载 2018-06-21 16:22:40 · 1125 阅读 · 0 评论 -
Airbnb机器学习框架Aerosolve
http://airbnb.io/aerosolve/https://github.com/airbnb/aerosolve/原创 2018-05-18 09:15:24 · 672 阅读 · 0 评论