- 博客(11)
- 收藏
- 关注
原创 常见机器学习算法优缺点
1.朴素贝叶斯 模型形式:生成模型 优点: 实现简单,所需要的估计参数很少,很好的利用了先验知识,学习和预测效率都很高。 对小规模的数据表现很好,能处理多分类任务,适合增量式训练。 对缺失数据不太敏感。 缺点: 需要计算先验概率。 对发生频率较低的事件预测效果不好。 2.KNN算法 模型形式:判别模型 优点: 模型不需要预
2017-08-21 16:56:21 879
原创 GBDT算法步骤
说明:本篇文章是参看文章结尾自己写的读书笔记。 GBDT算法步骤: k:表示待分类的类别,一共有K个类别。 m:表示迭代次数,一共迭代M次。 i:表示样本编号,一共有N个样本。 Fk0(x):表示样本x在第k个分类下的估值,是一个k维的向量。下表0表示第0次迭代。例如:假设输入数据x可能属于5个分类(分别为1,2,3,4,5),训练数据中,x属于类别3,则y = (0,
2017-08-06 17:47:34 4779
转载 机器学习中的算法(1)-决策树模型组合之随机森林与GBDT
转自:http://www.cnblogs.com/LeftNotEasy/archive/2011/03/07/random-forest-and-gbdt.html 版权声明: 本文由LeftNotEasy发布于http://leftnoteasy.cnblogs.com, 本文可以被全部的转载或者部分使用,但请注明出处,如果有问题,请联系wheeleast@gmail
2017-08-04 18:20:03 1026
转载 GBDT理解二三事
转自:http://blog.csdn.net/w28971023/article/details/43704775 一、要理解GBDT当然要从GB(Gradient Boosting)和DT(Decision Tree)两个角度来理解了; 二、GB其实是一种理念,他并不是这一个具体的算法,意思是说沿着梯度方向,构造一系列的弱分类器函数,并以一定权重组合起来,形成最终决策的强分类器;注意,
2017-08-04 16:25:48 457
转载 理解GBDT算法(三)——基于梯度的版本
转自:http://blog.csdn.net/puqutogether/article/details/44781035 上一篇中我们讲到了GBDT算法的第一个版本,是基于残差的学习思路。今天来说第二个版本,可以说这个版本的比较复杂,涉及到一些推导和矩阵论知识。但是,我们今天可以看到,两个版本之间的联系,这个是学习算法的一个重要步骤。 这篇博文主要从下面这几个方面来说基于梯度的GBDT算
2017-08-04 16:22:56 570
转载 GBDT(MART) 迭代决策树入门教程 | 简介
转自:http://blog.csdn.net/w28971023/article/details/8240756 在网上看到一篇对从代码层面理解gbdt比较好的文章,转载记录一下: GBDT(Gradient Boosting Decision Tree) 又叫 MART(Multiple Additive Regression Tree)
2017-08-04 15:44:38 258
转载 CART之回归树构建
转自:https://cethik.vip/2016/09/21/machineCAST/ 问题提出 在看李航的《统计学习方法》的决策树那一章节,提到了CART算法,讲解了如何分别构建分类树和回归树,文章的侧重点好像在分类树上,对回归树只是提了一下,让我很是不解,于是google了下,大家基本上都在讲怎么构建CART分类树,好像回归树不存在似得,所以根据我手头现有的资料和查找到的文
2017-08-04 15:20:27 6873 2
转载 LDA 与 PLSA对比
转自:https://www.zhihu.com/question/23642556/answer/38969800 一.主题模型的引入 主题模型是一个统计模型,用来抽离出一批文档中的“主题”。直觉上,已知一篇文档的一个特定主题,则我们有理由相信一些词会更可能出现在这篇文档,“狗”和“骨头”更有可能出现在一篇有关于狗的文档中,“猫”和“喵”更有可能出现在有关于猫的文档中,而英语当中的“
2017-08-01 17:12:25 3022
转载 从重采样到数据合成:如何处理机器学习中的不平衡分类问题?
转自:http://www.sohu.com/a/129333346_465975 选自Analytics Vidhya 作者:Upasana Mukherjee 机器之心编译 参与:马亚雄、微胖、黄小天、吴攀 如果你研究过一点机器学习和数据科学,你肯定遇到过不平衡的类分布(imbalanced class distribution)。这种情况是指:属于某一类别的观测样本的数量显著少
2017-08-01 17:09:03 15714
转载 8个经过证实的方法:提高机器学习模型的准确率
转自:http://www.ppvke.com/Blog/archives/26966 导语: 提升一个模型的表现有时很困难。如果你们曾经纠结于相似的问题,那我相信你们中很多人会同意我的看法。你会尝试所有曾学习过的策略和算法,但模型正确率并没有改善。你会觉得无助和困顿,这是90%的数据科学家开始放弃的时候。 不过,这才是考验真本领的时候!这也是普通的数据科学家跟大师级数据科学
2017-08-01 16:19:19 550
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人