机器学习算法
SMT深海的鱼
There is only one heroism in the world: to see the world as it is and to love it.
展开
-
机器学习_第一篇 过程总结(2)_EM算法 Expectation Maximization
1.最大期望算法1.1 简介 最大期望算法(Expectation-Maximization algorithm,EM),是一类通过迭代进行极大似然估计(Maximum Likelihood Estimation,MLE)的优化算法,通常作为牛顿迭代法(Newton-Raphsom method)的替代用于对包含隐变量(Latent variable)和缺失数据(incomplete-data)的概率模型进行参数估计。EM算法的标准计算框架由E步(Expectation-step)和...转载 2020-10-05 20:09:23 · 369 阅读 · 0 评论 -
机器学习_第三篇 判别分析(1)_线性判别分析 LDA/FDA
目录1. 简单的判别分析_ 距离判别法2. Fisher判别分析/线性判别分析1. 简单的判别分析_ 距离判别法2. Fisher判别分析/线性判别分析转载 2020-10-03 19:42:14 · 1972 阅读 · 0 评论 -
机器学习_第一篇 监督学习和非监督学习对比
A、监督学习和非监督学习的区别是否有监督(supervised),就看输入数据是否有标签(label)。输入数据有标签,则为有监督学习,没有标签则为无监督学习。(监督学习:通过已有的训练亚那根本(即已知数据以及其对应的输出)去训练得到一个最优的模型(这个模型属于某个函数的集合,最优则表示在某个评价准则下是最佳的),再利用这个模型将所有的输入映射为相应的输出,对输出进行简单的判断,从而实现分类的目的...原创 2018-05-02 14:03:52 · 442 阅读 · 0 评论 -
机器学习_第二篇 分类算法(4)_集成学习【boosting(提升法)】
Boosting 提升法1. boosting是一个迭代的过程,用于自适应地改变训练样本的分布,使得基分类器聚焦在那些很难分的样本上。2. boosting会给每一训练样本赋予一个权值,而且可以在每轮提升过程结束时自动地调整权值。开始时,所有的样本都赋予相同的权值1/n,从而使得它们被选作训练的可能性都是一样的。根据训练样本的抽样分布来抽取样本,得到新的样本集。然后,由该训练集归纳一个分...原创 2018-04-28 16:46:41 · 522 阅读 · 0 评论 -
机器学习_第二篇 分类算法(4)_集成学习【bagging(袋装法)】
Bagging(bootstrap aggregating)采用的是随机有放回的选择训练数据构造分类器,最后组合。(一种根据均匀概率分布从数据中重复抽样(有放回)的技术)随机森林是bagging中的一种方法。以随机森林为例进行说明随机森林是构造很多颗决策树,形成一个森林,然后用这些决策树共同决策输出类别是什么。随机森林算法是在构建单一决策树的基础上进行的,同时它也是对单一决策树算法...原创 2018-04-28 19:17:50 · 8930 阅读 · 0 评论 -
机器学习_第二篇 分类算法(4)_集成学习【boosting(提升法)—梯度提升决策树(GBDT)】
梯度提升决策树(Gradient Boost Decision TreeGBDT)又叫 MART (Multiple Additive Regression Tree),是一种迭代的决策树算法,该算法由多棵决策树组成,所有书的结论累计起来做最终答案。它在被提出之初就和SVM一起被认为是泛化能力较强的算法。这些年被用于搜索排序的机器学习模型而引起大家的关注。A、GBDT的优点:1,效果确实...原创 2018-05-02 12:17:43 · 797 阅读 · 0 评论 -
机器学习_第二篇 分类算法(4)_集成方法(Ensemble Method)
A、集成学习概述集成学习在机器学习算法中具有较高的准去率,不足之处是模型的训练过程可能较为复杂,效率不是很高。基于Boosting(提升方法) Adaboost(Adaptive Boosting 自适应增强) GBDT(Gradient Boost Decision Tree 梯度提升决策树) XGBooST(eXtreme Gradient Boos...原创 2018-04-28 16:32:21 · 3065 阅读 · 0 评论 -
机器学习_第三篇 特征学习(1)_主成分分析(Principal Component Analysis, PCA)
PCA是最重要的非监督学习的降维方法之一。在数据压缩消除冗余和数据噪音消除等领域都有广泛的应用。A、PCA的优缺点1)优点:仅仅需要以方差衡量信息量,不受数据集以外的因素影响;各主成分之间正交,可以消除原始数据成分见得相互影响的因素;计算方法简单,主要运算是特征值分解,易于实现。2)缺点:主成维特整分各个特征维度的含义具有一定的模糊性,不如原始样本特征的解释性强;方差小的非主成分也可能含有对样本差...转载 2018-05-03 17:01:32 · 1909 阅读 · 0 评论 -
机器学习_第一篇 过程总结
基本过程具体问题需要具体分析数据清洗/处理数据清洗直接影响后期特征和模型的效果,必须重视!一些常用python预处理方法参考:http://blog.csdn.net/q383700092/article/details/545718871. 缺失值处理(删除、补全、标记为缺失特征等)2. 异常数据处理(删除、平滑等)3. 不规范数据规范化4. 构建合适样本(解决样本倾斜等)5. ...转载 2018-04-26 16:31:04 · 263 阅读 · 0 评论 -
机器学习_第二篇 分类算法(3)_决策树 Decision Tree, DT
一般的,一颗决策树包含一个根节点、若干个内部节点和若干个叶节点;叶节点对应于决策结果,其他每个结果则对应于一个属性测试;每个结点包含的样本集合根据属性测试的结果被划分到子节点中;根节点包含样本全集。从根节点到每个叶节点的路径对应于一个判定测试序列。 决策树的直观解释:将数据根据其特征分布划分到不同的区域,使得同一个区域的样本有尽可能一致的类别标签。 每次数...原创 2019-06-11 19:21:20 · 655 阅读 · 0 评论 -
机器学习_第二篇 分类算法(2)_随机森林 Random Forest, RF(集成学习+决策树)
随机森林是通过集成学习的思想将多棵决策树集成的一种算法,它的基本单元是决策树 ,而它的本质是属于机器学的一大分支——集成学习(Ensemble Learning)。 随机森林的直观解释:每棵决策树都是一个分类器,那么对于一个输入样本,N棵树会有N个分类结果,随机森林集成了所有分类投票的结果,将投票次数最多的类别指定为最终的输出,这是一种最简单的Bagging的思想。...原创 2019-06-11 15:49:54 · 2501 阅读 · 0 评论 -
机器学习_第二篇 分类算法(1)_贝叶斯分类器 Bayesian decision, BD
贝叶斯决策论是概率框架下实施决策的基本方法。给定两个事件x和y,其各自发生的概率分别为和。它们联合发生的概率(表示为,以及它们相互发生的条件概率(如就表示给定事件x发生的情况下,事件y发生的概率)有如下关系: 应用此式,可以得到贝叶斯法则并进而得到关于的概率表示 ...原创 2019-06-12 18:15:28 · 342 阅读 · 0 评论