机器学习
文章平均质量分 82
风风雨雨中寻觅
平平淡淡,简简单单,取长补短,修炼身心
展开
-
随机变量概率分布函数汇总-离散型分布+连续型分布
2018.08.18-更新概率分布用以表达随机变量取值的概率规律,根据随机变量所属类型的不同,概率分布取不同的表现形式离散型分布:二项分布、多项分布、伯努利分布、泊松分布连续型分布:均匀分布、正态分布、指数分布、伽玛分布、偏态分布、贝塔分布、威布尔分布、卡方分布、F分布连续型随机变量:若随机变量X的分布函数F(X)可以表示为一个非负可积函数f(x)的积分,则称X为连续型随机变量,f...原创 2018-07-19 14:25:20 · 48060 阅读 · 0 评论 -
哑变量与鲁棒性的理解
若名义变量是有序的,则哑变量编码替代方法是给类别编号并应用min-max标准化。使用该方法注意点:只有确信类别间步长相等时,才能应用。如果有证据证明类别间步长不相等,那么哑变量编码是一种更保险方法鲁棒性即算法稳定性,即被测数据出现“震动”(受到干扰)时,算法得到结论是否相对稳定。具体在评价边缘检测算法稳定性时,可以对边缘图像加噪声,也可对边缘图像做模糊处理(锐化处理的反处理),还可降低图像辉度...原创 2019-03-17 22:36:39 · 315 阅读 · 0 评论 -
随机森林模型详解
1.定义决策树+bagging=随机森林,随机森林是一种比较新的机器学习模型(非线性基于树的模型)集成学习方法。上世纪八十年代Breiman等人发明分类树算法,通过反复二分数据进行分类或回归,计算量大大降低,2001年Breiman把分类树组合成随机森林,即在变量(列)的使用和数据(行)的使用上进行随机化,生成很多分类树,再汇总分类树结果。随机森林在运算量没有显著提高前提下提高了预测精度,随机...原创 2019-03-17 21:43:57 · 88617 阅读 · 8 评论 -
k折交叉验证概述-附R语言实现
因需要拿出部分数据作为测试,故总有部分数据不能用于构建模型,一种更好选择是交叉验证(简称CV)。k折交叉验证是交叉验证方法中的一种(是进行模型比较的有效方法),将整体数据集分为k份(每份近似相等),其中k-1份作为训练数据,另外一份作为验证数据集,并计算预测误差平方和。用验证集来验证所得分类器或模型的错误率,循环以上实验k次,直到所有k份数据都被选择一遍为止。选择小一点的k容易高方差,大一点的k容...原创 2019-03-02 23:09:55 · 7950 阅读 · 2 评论 -
RFM模型浅析
RFM模型在客户管理中常被用来衡量客户价值和客户创新能力,主要考量三个指标:最近一次消费-Recency、消费频率-Frequency、消费金额-Monetary。根据以上三个维度对客户做细分,假定每个维度划分五个等级,得到客户R值(1-5),F值(1-5),M值(1-5)。那么客户就被分作125个细分群,就可根据客户交易行为差异针对不同群体做不同推荐。或进一步针对不同业务场景,对R、F、M赋予不...原创 2019-03-02 15:37:07 · 2812 阅读 · 0 评论 -
规则学习算法
规则学习(独立而治之)决策树会给任务带来一组特定的偏差,而规则学习可通过直接识别规则而避免偏差。规则学习通常应用于以名义特征为主或全部是名义特征的问题,规则学习擅长识别偶发事件,即使偶发事件只是因为特征之间非常特殊的相互作用才发生的决策树必须从上至下的应用,而规则是单独存在的事实。根据相同数据建立的模型,规则学习的结果往往比决策树的结果更加简洁、直观、容易理解。规则学习算法数据的利用基于先...原创 2019-02-17 17:35:54 · 1763 阅读 · 0 评论 -
IV及WOE值详解-附R源码实现
1.IV值用途IV全称Information Value即信息价值或信息量。在用逻辑回归、决策树等模型方法构建分类模型时,经常需要对自变量进行筛选。比如有200个候选自变量,通常情况下不会直接把200个变量直接放到模型中去进行拟合训练,而会用一些方法从200个自变量中挑选一些放进模型,形成入模变量列表。挑选入模变量过程需要考虑的因素有很多,比如变量预测能力、变量间相关性、变量简单性(容易生成使...原创 2019-01-16 20:51:22 · 3539 阅读 · 0 评论 -
R重写mahout中user-based协同过滤算法-注释篇
声明:本篇是基于张丹《R的极客思想》书本中的内容,但张丹在代码中并未添加过多注释,本人最近在研究推荐系统,并将张丹的代码做了一些改动和详细注释贴上来供大家学习交流#user-based 协同过滤推荐,3个近邻,2个推荐结果#1.构建数据模型FileDataModel<-function(file_name){ user=unique(file_name$buyer_member...原创 2019-01-15 20:36:37 · 795 阅读 · 2 评论 -
熵值法解析-附R代码
熵的概念源于热力学,是对系统状态不确定性的一种度量。在信息论中,信息是系统有序程度的一种度量,而熵是系统无序程度的一种度量,两者绝对值相等,但符号相反。根据此性质可利用评价中各方案的固有信息,通过熵值法得到各个指标信息熵,熵值越小-无序程度越低-指标权重越小熵是不确定性的度量(可用于判断一个事件的随机性+无序程度),如果用表示第j个信息的不确定性程度,则整个信息(设有n个)的不确定性度量可以...原创 2019-01-15 17:41:51 · 11036 阅读 · 7 评论 -
美团推荐算法实践
2019-01-10 更新,对部分文字进行解释便于理解互联网的深入发展产生了严重的信息过载,如果不采取一定手段,用户很难从如此多的信息流中找到对自己有价值的信息。解决信息过载:1.搜索,用户有明确的信息需求意图,将意图转换成几个简短的词或词语的组合(query)-提交给搜索引擎-海量信息库检索出与query相关的信息返回;2.推荐,用户意图不明确或很难用清晰的语义表达,甚至用户自己都不清楚需求...转载 2019-01-09 17:48:30 · 3244 阅读 · 0 评论 -
模型评估方法-K-S值-附R实现代码
2019-01-18修改,新增ks值的R语言实现风控模型中计算K-S值方法:K-S值主要验证风控模型对违约对象的区分能力,通常是在风控模型预测完全体样本的风控评分后,将全体样本按是否违约分为两部分,然后用K-S值检验两组样本的风控评分是否有显著差异将全体样本按风控评分从低到高排序均分成十组,分别计算每组的实际好样本数、实际坏样本数、累计好样本数、累计坏样本数、累计好样本数占比(总好样本...原创 2019-01-02 18:55:57 · 2710 阅读 · 1 评论 -
协同过滤-Collaborative filtering
一、协同过滤协同过滤一般是在海量用户中发掘出一部分与目标用户特征比较类似的,在协同过滤中,这些用户与目标用户成为邻居,然后依据他们喜欢的其他东西组织成一个排序的目录推荐给目标用户协同过滤要考虑:1.如何确定一个用户和目标用户相似;2.如何将邻居的喜好组织成一个排序目录收集用户偏好:可通过用户行为判断偏好,如评分(传统星级评分制)、投票、转发、评论(用户情感)、点击、购买;同时也可对每个...原创 2019-01-10 19:30:10 · 364 阅读 · 0 评论 -
GBDT梯度提升决策树-理清每个细节-附Python代码
2019-01-14修改部分文字内容,增强理解 2019-01-17修改章节4.提升树算法与负梯度拟合,章节5.梯度提升回归树算法,更改公式、加注释使其更加容易理解 增加章节2.GBDT优缺点,6.梯度提升分类树算法1.GBDT概念以决策树为基学习器的集成学习算法具有预测精度高的优势,树的集成算法主要有随机森林和GBDT。随机森林具有很好的抗过...原创 2018-12-25 20:25:45 · 8617 阅读 · 0 评论 -
决策树算法-理清每个细节-附R+Python代码
2018-12-20更新,新增内容2019-01-14更新,对信息熵-信息增益章节中部分文字进行修订一.决策树概念在计算机科学中,树是一种重要数据结构,比如二叉查找树、红黑树等,通过引入“树”数据结构,可以很快缩小数据规模,实现高效查找。一般情况面对的样本通常具有很多特征,对事务的判断不能只从一个角度出发,决策树的思想是先从一个特征入手,通过这次分类使问题规模缩小,同时分类后的子集相比...原创 2018-12-19 20:53:20 · 5303 阅读 · 2 评论 -
Word2Vec词嵌入向量延伸-原理剖析
传送:基于Hierarchical Softmax的word2vec模型原理 基于Negative Sampling的word2vec模型原理一、基本概念准备稀疏向量(one-hot representation):用一个很长的向量来表示一个词,向量的长度为词典大小N,向量的分量只有一个1,其他全为0,1的位置对应该词在词典中的索引。举例如果有一个词典[“面条”,”...原创 2018-07-26 15:22:35 · 2249 阅读 · 0 评论 -
相关性分析与余弦距离
1.pearson相关系数两个连续变量间呈线性相关时(两变量需服从正态分布),使用pearson积差相关系数,不满足积差相关分析适用条件时,使用spearman秩相关系数描述2.spearman秩相关系数spearman相关系数又称秩相关系数,是利用两变量秩次大小作线性相关分析(依据两列成对等级等级数之差来计算,所以又称等级差数法),对原始变量分布不作要求属非参数统计方法,适用范围...原创 2019-03-26 20:36:48 · 2029 阅读 · 0 评论