自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

许卉的博客

有时候倒腾倒腾数据,有时候研究研究分析~from 许卉

  • 博客(45)
  • 收藏
  • 关注

原创 工作中我常用的分析算法

​ 统计性描述经常用到散点图 统计性描述更为侧重单变量的描述,即描述X、X与X之间的关系,在通过X去描述Y的时候,我更关心X与Y间存在何种关系,此时便需要借助散点图去印证X与Y相关的内在一致性,并通过方差、协方差过渡到统计相关的本质。 散点图是唯一一个能够描述变量与变量间相关关系的图形,在实际我的...

2019-09-23 14:38:20 1314

原创 如何借助模型衡量营销效果?

什么是营销绩效评估 生活中经常会遇到各种形态的营销活动,例如小米的饥饿营销、海底捞式的口碑营销、PaPi酱式的内容营销、杜蕾斯的借势营销、京东的造势营销、百雀羚的病毒式营销、RIO与六神合作的跨界营销、成龙代言霸王洗发水的名人营销、各种综艺冠名的植入营销等等。...

2019-08-07 17:05:04 1353

原创 客户分群决定营销成败

何谓客户分群 将现有的消费群体按照一定规则分成若干个小群组,使得不同组客户之间特征差异明显,同一群组内客户特征相似。 为什么进行客户分群...

2019-07-18 11:00:24 1431

原创 决策树告诉你出门带不带伞

帮你做决定 问你一个问题,“跳广场舞的大妈的儿子,今天出门要带伞不?” 很无厘头对不对? 你可以这样回答,“带不带伞需要看具体的情况,如果今天烈日高照而且大妈儿子今天计划走路去上班恰好这个人非常抠门,那么他需要带上雨伞;否则...

2019-07-08 11:08:06 804

原创 天造地设的主成分与神经网络

主成分与聚类能否自由切换? 分析架构中常常会涉及到主成分分析的环节,我常常会想,这部分主成分分析能不能用聚类分析去替代呢?结论是不能~ 首先,两者强调的重点不同,聚类分析强调的是列与列之间的整合关系,其强项是抽象因子的提取,而主成分分析并不擅长因子的解释,其强项...

2019-07-02 15:00:54 1698

原创 未来的银行只是有银行牌照的技术公司

未来的银行只是有银行牌照的技术公司我的公众号:Data Analyst个人网站:https://www.datanalyst.net/

2019-06-25 14:08:11 286

原创 神经网络如同青蛙的智力

神经网络模型 我理解的神经网络模型类似人的记忆,即人从出生到长大,接触、吸收外部信息并且将外部事物量化、统一化、概念化的过程,以此去指导一生的行为。 实际上,神经网络模型ANN是由大量的简单基本元件组成,每个元件的结构和功能都比较简单,...

2019-06-25 14:07:59 417

原创 数据挖掘不可小觑测量级别

数据挖掘不可忽视测量级别 为保证模型精准度,通常,构建模型前需要对样本进行缺失值、异常值、数据合并、数据离散化以及变量转换等多方面的处理,处理过程中,变量测量级别的确定贯穿其中。 测量类型通常包括名义测量、次序测量、标度测量与二分取值型测量,其中标度测量包括间距测量...

2019-06-25 14:07:50 1563

原创 RFM模型中的优惠券发放、捆绑销售以及短信营销

客户价值模型建模步骤 客户价值模型包含RFM模型,RFM模型仅仅是电商领域的客户价值模型,构建RFM模型的基本流程为:确定需求目标 这一步旨在完成指标选择并反复验证指标的合理性,指标的数量不一定非要是三个,也可以是多个指标。指标量化 论证了指标的...

2019-06-25 14:07:38 1447

原创 二八原则将人分为了三六九等

RFM模型仅仅是客户价值模型中的一种 不同行业对于客户价值的判断标准不同,电商行业中会经常使用客户价值领域中的RFM模型,电商中常用R表示时间与流失、F表示购买数量、M表示购买金额,但是这样的指标定义却并不适用于其他行业,例如银行。 ...

2019-06-25 14:07:20 2490

原创 数据挖掘更在乎成本与收益

统计分析一般都是验证性分析 数据分析中,不管是数据挖掘领域还是统计分析领域,都较为侧重验证性,验证性分析占据非常重要的主导地位。不同的是,99%的统计分析都是验证性分析,而数据挖掘领域中验证性分析的比例略低,能达到80%-90%左右。 ...

2019-06-24 14:38:04 579

原创 人生就是一个随机过程

什么是随机序列 一般统计的理论基础是概率论,而时间序列比较特殊,它的理论基础是随机过程。想透彻的理解时间序列,应该从根本、从随机过程的角度去理解时间序列。 随机变量本身的状态是随机变化的,但是这种变化往往会受到其他因素的干扰,例如一...

2019-06-24 14:21:13 1189

原创 聚类分析并不靠谱

距离定义不同,聚类结果不同 聚类分析中,距离有两种定义方式,即:依据远近:即距离的远近程度,远即距离远,近即距离近; 依据相似程度:即相似程度低为距离远,相似程度高为距离近 相同的聚类分析中,距离的定义方式不同,得到的聚类结果也会不同,实际的数据分析工作...

2019-06-24 13:57:26 3383

原创 客户画像中的聚类分析

客户画像会用聚类分析 实际工作中,最常使用的当属回归类模型,其次便是客户画像。即便是评分模型也会涉及到客户画像,由于首富客户的违约特征与普通百姓不同,故需进行区分,信用分池即为客户画像。 客户画像使用的技术为聚类分析,在营销场景中经常会逻辑...

2019-06-24 11:18:59 3372

原创 我眼中的模型评估

模型验证样本是有要求的 模型验证样本需要与前面建模样本进行完全相同的处理,即:模型的验证样本同样需要进行数据清洗、缺失值填充、分类变量WOE转换等处理; 在缺失值进行填补时,需要使用训练集的统计量而不是验证样本的统计量。例如训练集使用年龄的均值35岁作为填补缺失值,那...

2019-06-24 10:29:07 655

原创 我眼中的变量聚类

连续变量怎样压缩? 连续变量压缩的基本思路为:建模之前使用主成分、因子分析或变量聚类的方法进行变量压缩,后续建模时使用向前法、向后法、逐步法或全子集法进一步进行变量细筛。虽然方法的名称叫做变量聚类,但却并不是聚类分析,而是一种主成分分析的方法。 ...

2019-06-24 10:07:28 5112

原创 我眼中的变量水平压缩(二)

WOE是什么 WOE是一种证据权重,全称为weight of evidence,是变量压缩时我会采用的第二种方法。目前WOE变换也是信用评分模型中标准的处理流程、必不可少的步骤之一。 ...

2019-06-24 09:51:17 410

原创 我眼中的分类变量水平压缩(一)

分类变量的水平一定要压缩 模型中分类变量一般需要处理成0-1形式的哑变量。 如果变量水平本身较多,那么哑变量的水平个数也会相应变多,这种情况下去构建模型肯定不行,需要将分类变量的水平进行压缩处理。 ...

2019-06-24 09:42:05 937

原创 盖帽处理异常值

异常值的几种情况 数据分析中,异常值是比较难于界定的,一般数据异常值会有几种情况:单值异常 如下图所示,某市场产品客群的样本分布中,年龄为0-5岁与150-200岁即可判定为异常,一般单值异常需结合实际的业务进行判断。...

2019-06-24 09:30:52 6214

原创 评分模型的缺失值

公式模型必须处理缺失值 构建评分模型过程中,建模属于流程性的过程,耗时不多,耗费大量精力的点在于缺失值的填充。缺失值填充的合理性直接决定了评分模型的成败。模型按照形式可划分为公式模型与算法模型,不同形式的模型对缺失值的宽容程度不同。 公式模型必须处理缺...

2019-06-24 09:21:16 5364

原创 信用评分建模时的坑

分析流程是门工艺 实际工作中,清晰的数据分析流程是保证模型质量的重要手段,属于工艺的范畴。数据分析流程没有统一固定的标准答案,只有业界领先的经验,需要结合实际业务的特点进行不断调整与优化。 ...

2019-06-21 17:15:18 1428 1

原创 信用卡违约预测模型的开发思路

评分模型的数据多维性 目前以金融业为代表的各行各业使用的评分模型的原型都是基于美国FICO公司开发的评分模型,每个企业会将FICO的模型做些变形,从而形成自己需要的模型。 一般FICO的评分模型会基于四方面的信息:样本基本信息 样本业务行为 ...

2019-06-21 16:18:58 4055

原创 我眼中的信用评分模型

关于信用风险 之前工作中涉及到信用风险,接下来几天就分享些我在信用风险建模领域的一些经验吧~ 推荐一本比较好的资料书-《信用风险评分卡研究-基于SAS的开发与实施》,书的核心内容为以逻辑回归为基础构建信用评分模型,如果将这本书的内...

2019-06-21 15:57:24 2599 1

原创 我眼中的逻辑回归模型

分类选择模型 当被解释变量Y为 取有限个可能值的分类变量时,需要建立分类选择模型。分类选择模型大约有十几个左右,例如: 线性概率模型 对数线性模型 逻辑回归模型 条件逻辑回归模型 名...

2019-06-21 11:26:36 1160

原创 虚拟变量在模型中的作用

虚拟变量是什么 实际场景中,有很多现象不能单纯的进行定量描述,只能用例如“出现”“不出现”这样的形式进行描述,这种情况下就需要引入虚拟变量。例如即将到来的女生节,每年的这个时候毛绒玩具的销量都会上升,说明女生节对毛绒玩具的销量产生了一定影响,但是这...

2019-06-21 11:04:35 10674

原创 回归模型的变量筛选与预测

我眼中的回归变量筛选 变量筛选是回归建模过程关键的一步,由于变量间的相关性,必然会导致不同的筛选方法得到不同的模型。 在所有变量筛选方法中,向前法、向后法以及逐步回归法的使用频率较高,因为这类方法操作简单、运算速度快,非常实用,这种方法选出的...

2019-06-21 10:27:35 12166

原创 我眼中的多元回归模型

多元回归与一元回归不同 与一元回归相比,多元回归有两点不同:1、新增了一个假定,多元回归的假定为: Y的平均值能够准确的被由X组成的线性函数模型呈现出来; 解释变量和随机扰动项不存在线性关系; 解释变量之间不存...

2019-06-21 10:05:07 2944

原创 单变量线性回归模型与结果解读

模型一般形式 统计模型的一般形式是Y=m(X)+e。其中Y为输出变量、响应变量、因变量、被解释变量;m为均值;e为不可控因子,可以理解为噪声。故模型等式右边是用X组成的函数去描述Y的均值,即模型是在平均的意义下去描述自变量与因变量间的关系...

2019-06-09 13:59:19 11256

原创 回归模型的基础是相关

相关是随机理论的基础。田径赛中百米运动员想跑得快,需要大步幅与高步频,但步幅和步却是一对相互矛盾的存在,只有步幅和步频达到最优平衡点时,人才可以跑的更快,所以任何运动员都需要建立步幅和步频之间的平衡模型。 统计关系分类 相...

2019-06-07 13:38:16 474

原创 方差分析中的多因子交互作用

多因子方差分析的因子交互作用可以这样理解,比如经常吃的消炎药头孢,通常会认为服用三片要比服用一片效果好,但经过实际验证测试发现,男女之间用药效果并不相同。对于男性而言,吃三片的效果好些,而对女性而言,吃一片效果要更好。这种情况下,头炮剂量和性别之间便产生了了交互作用。 多因子方差分析中,当交互作用存在时,单纯去研究某个因素的作用已没有意义,需要分别探讨这个变量在另一个...

2019-06-06 19:40:26 16726

原创 方差分析分类及SAS实现代码

方差分析为多样本检验,其核心为假设检验,此外,方差分析还可以做多重比较。方差分析本身是一种假设检验,同时也是一种模型,是回归模型的特例,回归模型为线性模型,方差分析为一般线性模型。实际应用中方差分析单独出现的可能性很小,一般在实验设计场景用的较多,项目中用方差分析去支撑项目的情景基本不会出现。方差分析分类单因素方差分析 单因素方差分析用来研究一个因素的不同水平对...

2019-06-02 23:18:19 5172

原创 我眼中的数据挖掘算法

数据挖掘算法可以解决生活中很多问题,例如垃圾邮件的标记识别、欺诈交易用户的识别、品牌档次的判断定位、文章是否真的出自某位作家之手以及癌症细胞的判定等等,灵活的理解并应用数据挖掘算法可以高效的解决这些看似繁复的问题。 如下为数据挖掘中常用的算法类型,并通过生活中的案例去说明数据挖掘算法并不高深、随处可见。 实际的数据分析工作中,数据挖掘算法基本为分类算法、预...

2019-05-28 13:45:05 657

原创 关于数据测量层次的一点看法

数据分析中,常常需针对数据去划分测量层级,基本的测量层级主要为四种:定类测定定序测定定比测定定距测定如下是我对这四种测量层级的归纳总结:四种测量层级的归纳总结1. 定类测定:其特征为分类,具有计算的功能,例如事物的分类,针对离散数据样本;2. 定序测定:其特征为分类排序,具有计算与排序双重功能,例如事物的等级,针对离散数据样本;3. 定距测定:其特征为...

2019-05-28 12:36:49 1798

原创 我对洛伦兹曲线与GINI系数的一点看法

数据分析有时需要针对单变量进行数据描述,有时需要针对多变量之间的关系进行数据描述,洛伦兹曲线就是为描述多变量间关系而服务的。洛伦兹曲线即累计频数分布曲线,用于分析社会财富、土地、工资分配是否公平的问题。洛伦兹曲线不单可以表达收入分配,更多的是表达两个分布间的关联,可以理解为一个东西在另一个东西中分配的集中程度。 下面举一个例子来说明,利用收入将人口进行分组,共有两组,一...

2019-05-17 23:34:20 3458

原创 从样本T检验到六西格玛

数据分析工作中经常会涉及到的样本T检验一般有三种:单样本T检验、配对样本T检验和独立两样本T检验。可以这样理解这三种T检验:单样本T检验: 回答的是样本均值"是这样么"的问题,例如食堂包子已经卖出去的情况下,判断每个包子的重量是否是规定的50g,这种情况下用T检验进行分析可以判断食堂是否偷工减料;配对样本T检验: 回答的的是组内两样本是否相同的问题...

2019-05-12 00:10:01 941 1

原创 神经网络如同青蛙的智力

神经网络模型 我理解的神经网络模型类似人的记忆,即人从出生到长大,接触、吸收外部信息并且将外部事物量化、统一化、概念化的过程,以此去指导一生的行为。 实际上,神经网络模型ANN是由大量的简单基本...

2019-05-11 19:25:04 386

原创 数据挖掘中模型填补的方法

填补方法与样本量相关 通常,数据挖掘领域 建模时 数据样本的填补方法与样本量的大小息息相关,一般,如果变量间取值关联程度较强,则模型填补的方式似乎更为常见: 样本量适中的情况下,我会使用如下两种方式进行缺失值的填补 ...

2019-04-29 23:05:55 1521

原创 我眼中的密度函数

数据探索时涉及到的三个函数为密度函数、分布函数与生存函数,其中样本的分布函数的形态、生存函数的形态基本没有太大变化,然而样本的密度函数分布形态却有着很大的差异,所以一般在进行数据分析领域提到分布时,指的都是直方图所描述的密度函数。 依据密度函数的形状,可以将数据分布大致分为四种,需要分析师能够做到看到每种分布图就能解读出分布背后所隐含的信息,以下是我对这四种密度函...

2019-04-28 21:28:32 1558

原创 关于密度函数、分布函数与生存函数的一点看法(一)

统计中经常会涉及到密度函数、分布函数与生存函数的概念,如何透彻的理解这三个函数呢,以下是我的一点理解与看法:何为生存函数? 电梯用了六年还能否继续使用?一个人活了六年还能否再活5年?这些问题都是生存函数研究的领域,一般保险公司会更为关注生存函数。 何为分布函数? 一个企业的破产概率,对应的就是不破产的概率,那么分布函数的对立面就是生存函数,...

2019-04-28 21:15:48 5262

原创 建模前需要面对的问题

统计更加在乎的是模型应用的完善,即数据必须要符合模型的假定。 任何一个模型都有假定。数据挖掘中,如决策树和神经网络做的时候很少会提到假定,实际上他们的假定和回归差不多。很多时候,用R或者SAS建立一个决策树会发现效果不好,效果不好的原因就是你的数据不符合假定。决策树这种模型其实是没有底蕴的,即没有体系帮忙进行检验,所以这种模型在建模之前一定要对数据进行预处理,让数据去...

2019-04-28 18:07:14 542

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除