机器学习算法
文章平均质量分 74
努力是一种幸运
数理统计、数据挖掘、机器学习
展开
-
无监督学习中的常用聚类算法总结
聚类是一个把数据对象集划分成多个组或簇的过程,使得簇内的对象具有很高的相似性,但与其他簇中的对象很不相似。通常涉及距离度量。数据对象的簇可以看做隐含的类。在这种意义下,聚类有时又称自动分类。聚类可以自动地发现这些分组,这是聚类分析的突出优点。聚类被称做无监督学习,因为没有提供类标号信息。由于这种原因,聚类是通过观察学习,而不是通过示例学习。 (1)K-均值:一种基于形心得技术基于原创 2016-05-22 14:27:02 · 19083 阅读 · 0 评论 -
主题模型分析模型——pLSA
基于概率统计的pLSA模型(probabilistic Latent Semantic Analysis,概率隐语义分析),增加了主题模型,形成简单的贝叶斯网络,可以使用EM算法学习模型参数。pLSA应用与信息检索、过滤、自然语言处理等领域,pLSA考虑到词分布和主题分布,使用EM算法来学习参数。pLSA可以看做概率化的矩阵分解。 D代表文档,Z代表主题(隐含类别),W代表单词;原创 2016-05-25 23:12:34 · 1969 阅读 · 0 评论 -
k-近临算法及代码实现
K-最近邻分类(惰性学习法),即KNN。惰性学习法在提供训练元组时只做少量工作,而在进行分类或数值预测时做更多的工作。惰性学习法不提供多少解释或对数据结构的洞察。但是,惰性学习法天生地支持增量学习。惰性学习法的计算开销可能相当大。“近邻性”用距离度量,如欧式距离。在算式之前,需要把每个属性的值规范化,这有助于防止具有较大初始值域的属性(如收入)比具有较小初始值域的属性(原创 2016-05-21 17:56:33 · 1002 阅读 · 0 评论 -
我眼中的机器学习
什么是机器学习? 很多接触过机器学习领域的人,或多或少知道点机器学习的常用算法,但是对于机器学习的认识却并不清晰。今天查找相关资料,总结得出机器学习的相关概念。 机器学习(machine learning, 简称ML):对于某给定的任务T,在合理的性能度量方案P的前提下,某计算机程序可以自主学习任务T的经验E;随着提供合适、优质、大量的经验E,该程序对于任务原创 2016-04-22 00:49:56 · 2107 阅读 · 0 评论 -
信息熵与贝叶斯网络
相对熵 又称互熵,交叉熵,KL散度。设p(x)、q(x)是X中取值的两个概率分布,则p对q的相对熵是相对熵可以度量两个随机变量的“距离”互信息两个随机变量X,Y的互信息,定义为X,Y的联合分布和独立分布乘积的相对熵。信息增益信息增益表示得知特征A的信息而使得类X的信息的不确定性减少的程度。定义:特征A对训练数据集D的信息增益g(D,A),定义为集合D的经原创 2016-05-08 19:41:31 · 4117 阅读 · 0 评论 -
推荐系统构建中的PCA和SVD算法
推荐本质上是求相似度,重点是如何度量相似性。推荐的常用算法是协同过滤算法,该算法基于用户行为的数据而设计的推荐算法。M个人对N个商品产生行为,从而构成联系,对M个人进行聚类是基于用户(M1和M2相似,则已知M1购买P1,可将P1商品推荐给M2),对N个商品进行聚类是基于商品(P1和P2商品相似,则已知M1购买P1,可将P2商品推荐给M1)。 相似度/距离计算方法有以下几种:原创 2016-05-08 08:47:30 · 3756 阅读 · 2 评论 -
梯度下降法与经典牛顿下降法
梯度下降算法以函数为例,(1)求梯度;(2)向梯度相反方向移动x, ,其中,r为步长,如果步长足够小,则可以保证每一次迭代都在减少,但可能导致太慢,如果步长太大,则不能保证每一次迭代都减少,也不能保证收敛;(3)循环迭代步骤(2),直到x的变化到使得f(x)在两次迭代之间的差值足够小,比如0.00000001,即直到两次迭代计算出来的f(x)基本没有变化,则说明此时f(x)已经达到原创 2016-05-07 09:45:44 · 5264 阅读 · 0 评论 -
广义线性回归中的Logistic回归
Logistic函数又叫sigmoid函数,为S型曲线。Logistic回归和Softmax回归类似,两者本质上的不同体现在,Logistic回归对于两类的分类,而softmax则是从两类到三类的过程。 Logistic/sigmoid函数 Logistic回归参数估计原创 2016-05-06 23:37:15 · 4062 阅读 · 0 评论 -
k-means与EM算法小结
EM算法像是k-means的应用场景,比如双峰分布的数据,k-means方法,将其看成2-means聚类的方法处理场景。 k-means算法,也被称为k-平均或k-均值,是一种广泛使用的聚类算法,或者成为其他聚类算法的基础。 假定输入样本为,则算法步骤为: (1)选择初始的k个簇中心u1,u2,...,uk (2)将样本xi标记原创 2016-05-20 13:37:39 · 5353 阅读 · 0 评论 -
购物篮分析分类算法——频繁模式挖掘(聚类算法)
频繁模式是频繁地出现在数据集中的模式,包括频繁项集(如牛奶和面包)、频繁子序列(首先购买PC,然后是数码相机,再后是内存卡)或频繁子结构(涉及不同的结构形式,如子图、子树或子格,它可能与项集或子序列结合在一起)。从大量的商务事物记录中发现有趣相关联系,可为分类设计、交叉销售和购物购买习惯分析等许多商务决策过程提供帮助。频繁项集挖掘,如购物篮分析等,这些模式可用关联规则的形式表示。原创 2016-05-21 19:04:30 · 13476 阅读 · 0 评论 -
判别器组合算法——Bagging与随机森林
BaggingBagging的策略:(1)从样本集中重采样(有重复的)选出n个样本;(2)在所有属性上,对这n个样本建立分类器(ID3、C4.5、CART、SVM、Logistic回归等);(3)重复以上两步m次,即获得了m个分类器;(4)将数据放在这m个分类器上,最后根据这m个分类器的投票结果,决定数据属于哪一类。随机森林随机森林在bagging基础上做了原创 2016-05-04 15:36:21 · 1922 阅读 · 1 评论 -
经典提升算法——Adaboost
提升是一个机器学习技术,可以用于回归和分类问题,它每一步产生一个弱预测模型(决策树),并加权累加到总模型中;如果每一步的弱预测模型生成都是依据损失函数的梯度方向,则称之为梯度提升。 梯度提升算法首先给定一个目标损失函数,它的定义域是所有可行的弱函数集合(基函数);提升算法通过迭代的选择一个负梯度方向上的基函数来逐渐逼近局部极小值。这种在函数域的梯度提升观点对机器学习的很多领域有深刻原创 2016-05-05 10:56:50 · 4902 阅读 · 2 评论 -
经典分类算法——决策树
决策树是一种自顶向下的递归方法,其基本思想是以信息熵为度量构造一棵熵值下降最快的树,到叶子节点处的熵值为零,此时每个叶节点中的实例都属于一类。 决策树学习算法优点是,它可以自学习。在学习过程中,不需要使用者了解过多背景知识,只需要对实例进行较好的标注,就能够进行学习。决策树属于有监督学习。从一类无序、无规则的事物中推理决策树表示的分类规则。 决策树的建立原创 2016-05-04 14:22:08 · 4893 阅读 · 0 评论 -
支持向量机SVM推导及求解过程
支持向量机是属于原创性(非组合)的具有明显直观几何意义的分类算法,具有较高的准确率。 使用SVM算法的思路:(1)简单情况,线性可分情况,把问题转化为一个凸优化问题,可以用拉格朗日乘子法简化,然后用既有的算法解决;(2)复杂情况,线性不可分,用核函数将样本投射到高维空间,使其变成线性可分的情形,利用核函数来减少高纬度计算量。 分割超平面 设C和D为两原创 2016-05-05 14:42:58 · 39140 阅读 · 8 评论