自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

许卉的博客

有时候倒腾倒腾数据,有时候研究研究分析~from 许卉

原创 工作中我常用的分析算法

​ 统计性描述经常用到散点图 统计性描述更为侧重单变量的描述,即描述X、X与X之间的关系,在通过X去描述Y的时候,我更关心X与Y间存在何种关系,此时便需要借助散点图去印证X与Y相关的内在一致性,并通过方差、协方差过渡到统计相关的本质。 散点图是唯一一...

2019-09-23 14:38:20

阅读数 10

评论数 0

原创 如何借助模型衡量营销效果?

什么是营销绩效评估 生活中经常会遇到各种形态的营销活动,例如小米的饥饿营销、海底捞式的口碑营销、PaPi酱式的内容营销、杜蕾斯的借势营销、京东的造势营销、百雀羚的病毒式营销、RIO与六神合作的跨界营销、成龙代言霸王洗发水的名人营销、各种综艺冠名的植入营销等等。 ...

2019-08-07 17:05:04

阅读数 17

评论数 0

原创 客户分群决定营销成败

何谓客户分群 将现有的消费群体按照一定规则分成若干个小群组,使得不同组客户之间特征差异明显,同一群组内客户特征相似。 为什么进行客户分群 ...

2019-07-18 11:00:24

阅读数 29

评论数 0

原创 决策树告诉你出门带不带伞

帮你做决定 问你一个问题,“跳广场舞的大妈的儿子,今天出门要带伞不?” 很无厘头对不对? 你可以这样回答,“带不带伞需要看具体的情况,如果今天烈日高照而且大妈儿子今天计划走路去上班恰好这个人非常抠门,那么他需要带上雨伞;否则...

2019-07-08 11:08:06

阅读数 46

评论数 0

原创 天造地设的主成分与神经网络

主成分与聚类能否自由切换? 分析架构中常常会涉及到主成分分析的环节,我常常会想,这部分主成分分析能不能用聚类分析去替代呢?结论是不能~ 首先,两者强调的重点不同,聚类分析强调的是列与列之间的整合关系,其强项是抽象因子的提取,而主成分分析并不擅长因子的解释,其强项...

2019-07-02 15:00:54

阅读数 67

评论数 0

原创 未来的银行只是有银行牌照的技术公司

未来的银行只是有银行牌照的技术公司 我的公众号:Data Analyst 个人网站:https://www.datanalyst.net/

2019-06-25 14:08:11

阅读数 108

评论数 0

原创 神经网络如同青蛙的智力

神经网络模型 我理解的神经网络模型类似人的记忆,即人从出生到长大,接触、吸收外部信息并且将外部事物量化、统一化、概念化的过程,以此去指导一生的行为。 实际上,神经网络模型ANN是由大量的简单基本元件组成,每个元件的结构和功能都比较简单,...

2019-06-25 14:07:59

阅读数 130

评论数 0

原创 数据挖掘不可小觑测量级别

数据挖掘不可忽视测量级别 为保证模型精准度,通常,构建模型前需要对样本进行缺失值、异常值、数据合并、数据离散化以及变量转换等多方面的处理,处理过程中,变量测量级别的确定贯穿其中。 测量类型通常包括名义测量、次序测量、标度测量与二分取值型测量,其中标度测量包括间距测量...

2019-06-25 14:07:50

阅读数 108

评论数 0

原创 RFM模型中的优惠券发放、捆绑销售以及短信营销

客户价值模型建模步骤 客户价值模型包含RFM模型,RFM模型仅仅是电商领域的客户价值模型,构建RFM模型的基本流程为: 确定需求目标 这一步旨在完成指标选择并反复验证指标的合理性,指标的数量不一定非要是三个,也可以是多个指标。 指标量化 论证了指标的...

2019-06-25 14:07:38

阅读数 168

评论数 0

原创 二八原则将人分为了三六九等

RFM模型仅仅是客户价值模型中的一种 不同行业对于客户价值的判断标准不同,电商行业中会经常使用客户价值领域中的RFM模型,电商中常用R表示时间与流失、F表示购买数量、M表示购买金额,但是这样的指标定义却并不适用于其他行业,例如银行。 ...

2019-06-25 14:07:20

阅读数 379

评论数 0

原创 数据挖掘更在乎成本与收益

统计分析一般都是验证性分析 数据分析中,不管是数据挖掘领域还是统计分析领域,都较为侧重验证性,验证性分析占据非常重要的主导地位。不同的是,99%的统计分析都是验证性分析,而数据挖掘领域中验证性分析的比例略低,能达到80%-90%左右。 ...

2019-06-24 14:38:04

阅读数 80

评论数 0

原创 人生就是一个随机过程

什么是随机序列 一般统计的理论基础是概率论,而时间序列比较特殊,它的理论基础是随机过程。想透彻的理解时间序列,应该从根本、从随机过程的角度去理解时间序列。 随机变量本身的状态是随机变化的,但是这种变化往往会受到其他因素的干扰,例如一...

2019-06-24 14:21:13

阅读数 78

评论数 0

原创 聚类分析并不靠谱

距离定义不同,聚类结果不同 聚类分析中,距离有两种定义方式,即: 依据远近:即距离的远近程度,远即距离远,近即距离近; 依据相似程度:即相似程度低为距离远,相似程度高为距离近 相同的聚类分析中,距离的定义方式不同,得到的聚类结果也会不同,实际的数据分析工作...

2019-06-24 13:57:26

阅读数 158

评论数 0

原创 客户画像中的聚类分析

客户画像会用聚类分析 实际工作中,最常使用的当属回归类模型,其次便是客户画像。即便是评分模型也会涉及到客户画像,由于首富客户的违约特征与普通百姓不同,故需进行区分,信用分池即为客户画像。 客户画像使用的技术为聚类分析,在营销场景中经常会逻辑...

2019-06-24 11:18:59

阅读数 174

评论数 0

原创 我眼中的模型评估

模型验证样本是有要求的 模型验证样本需要与前面建模样本进行完全相同的处理,即: 模型的验证样本同样需要进行数据清洗、缺失值填充、分类变量WOE转换等处理; 在缺失值进行填补时,需要使用训练集的统计量而不是验证样本的统计量。例如训练集使用年龄的均值35岁作为填补缺失值,那...

2019-06-24 10:29:07

阅读数 161

评论数 0

原创 我眼中的变量聚类

连续变量怎样压缩? 连续变量压缩的基本思路为:建模之前使用主成分、因子分析或变量聚类的方法进行变量压缩,后续建模时使用向前法、向后法、逐步法或全子集法进一步进行变量细筛。虽然方法的名称叫做变量聚类,但却并不是聚类分析,而是一种主成分分析的方法。 ...

2019-06-24 10:07:28

阅读数 183

评论数 0

原创 我眼中的变量水平压缩(二)

WOE是什么 WOE是一种证据权重,全称为weight of evidence,是变量压缩时我会采用的第二种方法。目前WOE变换也是信用评分模型中标准的处理流程、必不可少的步骤之一。 ...

2019-06-24 09:51:17

阅读数 36

评论数 0

原创 我眼中的分类变量水平压缩(一)

分类变量的水平一定要压缩 模型中分类变量一般需要处理成0-1形式的哑变量。 如果变量水平本身较多,那么哑变量的水平个数也会相应变多,这种情况下去构建模型肯定不行,需要将分类变量的水平进行压缩处理。 ...

2019-06-24 09:42:05

阅读数 45

评论数 0

原创 盖帽处理异常值

异常值的几种情况 数据分析中,异常值是比较难于界定的,一般数据异常值会有几种情况: 单值异常 如下图所示,某市场产品客群的样本分布中,年龄为0-5岁与150-200岁即可判定为异常,一般单值异常需结合实际的业务进行判断。 ...

2019-06-24 09:30:52

阅读数 219

评论数 0

原创 评分模型的缺失值

公式模型必须处理缺失值 构建评分模型过程中,建模属于流程性的过程,耗时不多,耗费大量精力的点在于缺失值的填充。缺失值填充的合理性直接决定了评分模型的成败。模型按照形式可划分为公式模型与算法模型,不同形式的模型对缺失值的宽容程度不同。 公式模型必须处理缺...

2019-06-24 09:21:16

阅读数 90

评论数 0

提示
确定要删除当前文章?
取消 删除