2017年08月_xiaokang06

原创常见机器学习算法优缺点

1.朴素贝叶斯模型形式：生成模型优点：实现简单，所需要的估计参数很少，很好的利用了先验知识，学习和预测效率都很高。对小规模的数据表现很好，能处理多分类任务，适合增量式训练。对缺失数据不太敏感。缺点：需要计算先验概率。对发生频率较低的事件预测效果不好。 2.KNN算法模型形式：判别模型优点：模型不需要预

2017-08-21 16:56:21 879

转载 CART之回归树构建

转自：https://cethik.vip/2016/09/21/machineCAST/

2017-08-18 18:28:18 405

原创 GBDT算法步骤

说明：本篇文章是参看文章结尾自己写的读书笔记。 GBDT算法步骤： k：表示待分类的类别，一共有K个类别。 m：表示迭代次数，一共迭代M次。 i：表示样本编号，一共有N个样本。 Fk0(x)：表示样本x在第k个分类下的估值，是一个k维的向量。下表0表示第0次迭代。例如：假设输入数据x可能属于5个分类（分别为1,2,3,4,5），训练数据中，x属于类别3，则y = (0,

2017-08-06 17:47:34 4779

转载机器学习中的算法(1)-决策树模型组合之随机森林与GBDT

2017-08-04 18:20:03 1026

转载 GBDT理解二三事

转自：http://blog.csdn.net/w28971023/article/details/43704775 一、要理解GBDT当然要从GB(Gradient Boosting)和DT(Decision Tree)两个角度来理解了；二、GB其实是一种理念，他并不是这一个具体的算法，意思是说沿着梯度方向，构造一系列的弱分类器函数，并以一定权重组合起来，形成最终决策的强分类器；注意，

2017-08-04 16:25:48 457

转载理解GBDT算法（三）——基于梯度的版本

转自：http://blog.csdn.net/puqutogether/article/details/44781035 上一篇中我们讲到了GBDT算法的第一个版本，是基于残差的学习思路。今天来说第二个版本，可以说这个版本的比较复杂，涉及到一些推导和矩阵论知识。但是，我们今天可以看到，两个版本之间的联系，这个是学习算法的一个重要步骤。这篇博文主要从下面这几个方面来说基于梯度的GBDT算

2017-08-04 16:22:56 570

转载 GBDT（MART）迭代决策树入门教程 | 简介

转自：http://blog.csdn.net/w28971023/article/details/8240756 在网上看到一篇对从代码层面理解gbdt比较好的文章，转载记录一下： GBDT(Gradient Boosting Decision Tree) 又叫 MART（Multiple Additive Regression Tree)

2017-08-04 15:44:38 258

转载 CART之回归树构建

转自：https://cethik.vip/2016/09/21/machineCAST/ 问题提出在看李航的《统计学习方法》的决策树那一章节，提到了CART算法，讲解了如何分别构建分类树和回归树，文章的侧重点好像在分类树上，对回归树只是提了一下，让我很是不解，于是google了下，大家基本上都在讲怎么构建CART分类树，好像回归树不存在似得，所以根据我手头现有的资料和查找到的文

2017-08-04 15:20:27 6873 2

转载 LDA 与 PLSA对比

转自：https://www.zhihu.com/question/23642556/answer/38969800 一．主题模型的引入主题模型是一个统计模型，用来抽离出一批文档中的“主题”。直觉上，已知一篇文档的一个特定主题，则我们有理由相信一些词会更可能出现在这篇文档，“狗”和“骨头”更有可能出现在一篇有关于狗的文档中，“猫”和“喵”更有可能出现在有关于猫的文档中，而英语当中的“

2017-08-01 17:12:25 3022

转载从重采样到数据合成：如何处理机器学习中的不平衡分类问题？

转自：http://www.sohu.com/a/129333346_465975 选自Analytics Vidhya 作者：Upasana Mukherjee 机器之心编译参与：马亚雄、微胖、黄小天、吴攀如果你研究过一点机器学习和数据科学，你肯定遇到过不平衡的类分布（imbalanced class distribution）。这种情况是指：属于某一类别的观测样本的数量显著少

2017-08-01 17:09:03 15714

转载 8个经过证实的方法：提高机器学习模型的准确率

转自：http://www.ppvke.com/Blog/archives/26966 导语：提升一个模型的表现有时很困难。如果你们曾经纠结于相似的问题，那我相信你们中很多人会同意我的看法。你会尝试所有曾学习过的策略和算法，但模型正确率并没有改善。你会觉得无助和困顿，这是90%的数据科学家开始放弃的时候。不过，这才是考验真本领的时候!这也是普通的数据科学家跟大师级数据科学

2017-08-01 16:19:19 550

xiaokang06的专栏

原创常见机器学习算法优缺点

转载 CART之回归树构建

原创 GBDT算法步骤

转载机器学习中的算法(1)-决策树模型组合之随机森林与GBDT

转载 GBDT理解二三事

转载理解GBDT算法（三）——基于梯度的版本

转载 GBDT（MART）迭代决策树入门教程 | 简介

转载 CART之回归树构建

转载 LDA 与 PLSA对比

转载从重采样到数据合成：如何处理机器学习中的不平衡分类问题？

转载 8个经过证实的方法：提高机器学习模型的准确率

空空如也

空空如也