机器学习
文章平均质量分 82
pilongjiao
这个作者很懒,什么都没留下…
展开
-
决策树与随机森林
原文一:概念 决策树是一种非线性有监督分类模型,随机森林是一种非线性有监督分类模型。线性分类模型比如说逻辑回归,可能会存在不可分问题,但是非线性分类就不存在。决策树是机器学习中最接近人类思考问题的过程的一种算法,通过若干个节点,对特征进行提问并分类(可以是二分类也可以使多分类),直至最后生成叶节点(也就是只剩下一种属性)。 决策树是一种简单但是广泛使用的分类器。通过训练...转载 2018-06-17 15:13:08 · 1211 阅读 · 0 评论 -
求解最优化问题的方法:拉格朗日乘子法(Lagrange Multiplier) 和KKT条件
在求解最优化问题中,拉格朗日乘子法(Lagrange Multiplier)和KKT(Karush Kuhn Tucker)条件是两种最常用的方法。在有等式约束时使用拉格朗日乘子法,在有不等约束时使用KKT条件。 我们这里提到的最优化问题通常是指对于给定的某一函数,求其在指定作用域上的全局最小值(因为最小值与最大值可以很容易转化,即最大值问题可以转化成最小值问题)。提到KKT条件一般会附带的...转载 2019-04-21 00:09:16 · 6737 阅读 · 0 评论 -
文本主题模型之LDA
文本主题模型之LDA(一) LDA基础 文本主题模型之LDA(二) LDA求解之Gibbs采样算法 文本主题模型之LDA(三) LDA求解之变分推断EM算法...转载 2019-04-21 00:04:08 · 641 阅读 · 0 评论 -
HMM(隐马尔可夫模型)
原文什么是熵(Entropy)简单来说,熵是表示物质系统状态的一种度量,用它老表征系统的无序程度。熵越大,系统越无序,意味着系统结构和运动的不确定和无规则;反之,,熵越小,系统越有序,意味着具有确定和有规则的运动状态。熵的中文意思是热量被温度除的商。负熵是物质系统有序化,组织化,复杂化状态的一种度量。熵最早来原于物理学. 德国物理学家鲁道夫·克劳修斯首次提出熵的概念,用来表示任何一种能...转载 2019-04-20 23:56:00 · 495 阅读 · 0 评论 -
从贝叶斯方法谈到贝叶斯网络
原文0 引言 事实上,介绍贝叶斯定理、贝叶斯方法、贝叶斯推断的资料、书籍不少,比如《数理统计学简史》,以及《统计决策论及贝叶斯分析 James O.Berger著》等等,然介绍贝叶斯网络的中文资料则非常少,中文书籍总共也没几本,有的多是英文资料,但初学者一上来就扔给他一堆英文论文,因无基础和语言的障碍而读得异常吃力导致无法继续读下去则是非常可惜的(当然,有了一定的基础后,便可阅读更多...转载 2018-12-08 23:41:32 · 485 阅读 · 0 评论 -
EM算法推导
原文 EM算法也称期望最大化(Expectation-Maximum,简称EM)算法,它是一个基础算法,是很多机器学习领域算法的基础,比如隐式马尔科夫算法(HMM), LDA主题模型的变分推断等等。EM算法要解决的问题 我们经常会从样本观察数据中,找出样本的模型参数。 最常用的方法就是极大化模型分布的对数似然函数。 但是在一些情况下,我们得到的观察数据有未观察到的隐含数据...转载 2018-10-07 21:27:42 · 601 阅读 · 0 评论 -
聚类算法
1 聚类简述 聚类就是按照某个特定标准(如距离准则,即数据点之间的距离)把一个数据集分割成不同的类或簇,使得同一个簇内的数据对象的相似性尽可能大,同时不在同一个簇中的数据对象的差异性也尽可能地大。我们可以具体地理解为,聚类后同一类的数据尽可能聚集到一起,不同类数据尽量分离。 聚类技术正在蓬勃发展,对此有贡献的研究领域包括数据挖掘、统计学、机器学习、空间数据库技术、生...转载 2018-10-05 23:36:49 · 3937 阅读 · 0 评论 -
AdaBoost算法讲解
原文:AdaBoost算法讲解、举例一: 算法介绍adaboost算法的目标是提高学习算法(比如说LMS算法)的分类准确率。adaboost算法提供的是框架。可以使用各种学习方法构建子分类器。二: 算法分析步骤:根据训练样本设计一个分类器,根据分类的结果,改变每个样本的权重,产生一个弱分类器,一直迭代,直到最后的误差率小于给定的误差率。把这些分类器合并起来,组成一个强分类器。一:从大小为n的原始样...转载 2018-07-02 10:07:25 · 498 阅读 · 0 评论 -
AdaBoost算法
原文:机器学习实战之AdaBoost算法一,引言 前面几章的介绍了几种分类算法,当然各有优缺。如果将这些不同的分类器组合起来,就构成了我们今天要介绍的集成方法或者说元算法。集成方法有多种形式:可以使多种算法的集成,也可以是一种算法在不同设置下的集成,还可以将数据集的不同部分分配不同的分类器,再将这些分类器进行集成。 adaBoost分类器就是一种元算法分类器,adaBoost分类器利用同一种基...转载 2018-07-01 17:58:13 · 446 阅读 · 0 评论 -
bagging与boosting的概念及区别
原文集成学习通过构建并结合多个学习器来完成学习任务.只包含同种类型的个体学习器,这样的集成是“同质”的;包含不同类型的个体学习器,这样的集成是“异质”的.集成学习通过将多个学习器进行结合,常可获得比单一学习器显著优越的泛化性能.根据个体学习器的生成方式,目前的集成学习方法大致可分为两大类,即个体学习器间存在强依赖关系、必须串行生成的序列化方法,以及个体学习器间不存在强依赖关系、可同时生成的并行化方...转载 2018-06-18 14:42:17 · 480 阅读 · 0 评论 -
样本不均衡的一些处理技巧
原文(1) 数据层次的方法欠采样欠采样(undersampling)法是去除训练集内一些多数样本,使得两类数据量级接近,然后在正常进行学习。这种方法的缺点是就是放弃了很多反例,这会导致平衡后的训练集小于初始训练集。而且如果采样随机丢弃反例,会损失已经收集的信息,往往还会丢失重要信息。欠采样改进方法1但是我们可以更改抽样方法来改进欠抽样方法,比如把多数样本分成核心样本和非核心样本,非核心样本为对预测...转载 2018-06-17 15:53:04 · 9943 阅读 · 2 评论 -
机器学习算法总结
原文机器学习无疑是当前数据分析领域的一个热点内容。很多人在平时的工作中都或多或少会用到机器学习的算法。本文总结一下常见的机器学习算法,以供参考。机器学习的算法很多,很多算法是一类算法,而有些算法又是从其他算法中延伸出来的。 这里从两个方面进行总结,第一个方面是学习的方式,第二个方面是算法的类似性。一、学习方式 根据数据类型的不同,对一个问题的建模有不同的方式。在机器...转载 2019-04-21 22:26:54 · 778 阅读 · 0 评论