机器学习算法
文章平均质量分 82
tuqinag
这个作者很懒,什么都没留下…
展开
-
机器学习算法(一):聚类算法
聚类算法聚类算法是属于无监督学习算法中非常常用的一种。算法使用的训练数据中的标签信息是未知的,目标是通过对无标记的训练样本的学习来揭示内在的性质和规律。聚类过程能够自动地形成簇结构,但是簇对应的概念语意需要由使用者来决定。聚类既能作为一个单独的过程,用于寻找数据的内在分布结构,也可以作为分类等其他学习任务的前驱过程。性能度量对于任何一个算法,我们都需要有一个性能指标来衡量算法结果的优劣。之前已经有一原创 2015-05-21 16:17:28 · 6497 阅读 · 0 评论 -
机器学习算法(九):Apriori算法
机器学习算法(九):Apriori算法Apriori算法是一种关联分析方法,用于发现隐藏在大型数据集中有意义的联系。所发现的联系可以使用关联规则和频繁项集来表示。一些基本概念项集令I={i1,i2,…,id}I = \{i_1, i_2, \dots , i_d\}是购物篮数据所有项的集合,而T={t1,t2,…,tN}T = \{t_1, t_2, \dots , t_N\}是所有事务的集合。每个原创 2017-01-25 17:21:09 · 3523 阅读 · 0 评论 -
评估方法、性能度量和比较检验
机器学习中模型的评估方法、性能度量和结果的检验方法在对算法进行训练时,我们必须要有相应的数据。我们并不能在所有数据上进行训练,否则就没有数据来对算法的性能进行验证了。这就涉及到训练集与测试集划分的问题,即评估方法。算法在训练好了之后,需要将其在数据集上进行测试,如何来衡量测试的结果,这就是性能的度量。有了实验评估方法和性能度量,看起来就能对学习算法的性能进行评估比较了:先使用某种实验评估方法测得学习原创 2017-01-25 17:18:19 · 10915 阅读 · 1 评论 -
机器学习解决问题的步骤
机器学习解决问题的步骤针对任何一个打算由机器学习算法来解决的问题,都有一种『套路』存在,只要按照这个模板『按部就班』就能够得到一个结果。就跟一个产品的生产流水线是一个道理。但是得到结果的好坏跟你是否是一个『熟练工』有很大的关系。因为在解决具体的问题中有许多的tricks对于结果的提升有所帮助。整个『套路』能分为以下5个步骤:定义问题对数据进行预处理算法的抽查对结果进行优化结果展示这里非常原创 2017-01-25 17:14:19 · 12567 阅读 · 0 评论 -
机器学习算法(八):EM算法
EM(Expectation Maximization)算法概率模型有时既含有观测变量,又含有隐变量或潜在变量。如果概率模型的变量都是观测变量,那么给定数据,可以直接用极大似然估计法,或贝叶斯估计法估计模型参数。但是,当模型含有隐变量时,就不能简单地使用这些估计方法。EM算法就是含有隐变量的概率模型参数的极大似然估计法,或极大后验概率估计法。一般地,用Y表示观测随机变量的数据,Z表示隐随机变量的数据原创 2015-08-15 16:52:37 · 1923 阅读 · 0 评论 -
机器学习几个重要概念
几个重要概念监督学习与非监督学习统计学习的算法可以分为以下几个类别:监督学习、非监督学习、半监督学习以及强化学习。监督学习的输入数据都有对应的类标签或是一个输出值,其任务是学习一个模型,使模型能够对任意给定的输入,对其相应的输出做出一个好的预测。非监督学习就是没有对应的类标签或是输出值。学习中并没有任何标准来告诉你,某个概念是否正确,需要学习器自身形成和评价概念。就是自动地从数据中挖掘出结构信息或是原创 2015-07-17 20:07:38 · 4986 阅读 · 0 评论 -
机器学习算法(七):朴素贝叶斯方法
机器学习算法(七):朴素贝叶斯方法朴素贝叶斯方法是基于贝叶斯定理与特征条件独立假设的分类方法。对于给定的训练数据集,首先基于特征条件独立假设学习输入/输出的联合概率分布;然后基于此模型,对于给定的输入x,利用贝叶斯定理求出后验概率最大的输出y。朴素贝叶斯方法实际上学习到生成数据的机制,所以属于生成模型。条件独立假设是用于分类的特征在类确定的条件下都是条件独立的。这一假设使朴素贝叶斯法变得简单,但有时原创 2015-07-18 10:37:22 · 1473 阅读 · 0 评论 -
机器学习算法(六):随机森林
随机森林算法在之前的博客中我们已经介绍过了集成方法中的一大类Boosting方法,这里我们就来介绍另一类的Bagging方法,以及其的一个著名实例随机森领算法。Bagging算法Boosting算法使得不同的基学习器具有较大差异的做法是改变训练数据的权重。另一种做法是对训练数据进行采样,产生出若干不同的子集,再从每一个训练子集中训练出一个基学习器。这样,由于训练数据的不同,获得的基学习器可望具有较大原创 2015-06-10 22:26:32 · 4176 阅读 · 1 评论 -
机器学习算法(四):KNN算法
KNN算法K近邻算法(k-nearest neighbor,k-NN)是一种分类与回归的方法。K近邻法的输入为实例,输出为实例的类别,这里的类别可以取多类。分类时,对于新的实例,根据k个最近邻的训练数据的类别,通过多数表决的方法进行预测。K近邻算法实际上是利用训练数据对输入空间进行划分,并作为其分类的模型。前面我们也有提到,k邻近是一种分类与回归的方法,但是接下来我们要讨论的是分类的这一方面。而对于原创 2015-05-27 16:54:45 · 1766 阅读 · 0 评论 -
机器学习算法(三):Adaboost算法
Boosting算法集成学习集成学习的一般结构:先产生一组个体学习器,再使用某种策略将它们结合起来。个体学习器通常由一个现有的算法从训练数据中产生。集成学习既可以包含相同类型的个体学习器,也可以包含不同类型的个体学习器。集成学习通过将多个学习器进行结合,常可以获得比一般学习器显著优越的泛化性能。这对弱分类器(指泛化性能略优于随机猜测的学习器)尤为明显,因此集成学习的很多理论研究都是针对弱分类器进行的原创 2015-05-24 22:04:53 · 1823 阅读 · 0 评论 -
机器学习算法(二):决策树算法
决策树算法首先我们来看一个例子,这个例子能很好地反映出整个算法的具体流程。一个例子某位母亲给自己闺女物色了个男朋友,于有了下面这段对话:女儿:多大年纪了?母亲:26。女儿:长得帅不帅?母亲:挺帅的。女儿:收入高不?母亲:不算特别高,中等情况吧。女儿:是不是公务员?母亲:是,在税务局上班女儿:那好,见个面吧。这个女孩的决策过程就是典型的分类决策过程。相当于通过年龄,长相,收入和是否是公原创 2015-05-22 10:03:25 · 1758 阅读 · 0 评论 -
机器学习算法(五):支持向量机(SVM)
支持向量机(Support Vector Machine,SVM)支持向量机是一种二分类模型。它的学习策略是间隔最大化,可以形式化为一个求解凸二次规划的问题,支持向量机的学习算法是求解凸二次规划的最优化问题。支持向量机的模型包括三种类型:线性可分支持向量机、线性支持向量机、非线性支持向量机。当训练数据线性可分时,通过硬间隔最大化,学习一个线性分类器,也即线性可分支持向量机;当训练数据近似可分时,通过原创 2017-01-26 10:35:02 · 2023 阅读 · 0 评论