机器学习
文章平均质量分 81
qq_2773878606
学生
展开
-
HMM隐马尔可夫
隐马尔可夫模型 (Hidden Markov Model,HMM) 最初由 L. E. Baum 和其它一些学者发表在一系列的统计学论文中,随后在语言识别,自然语言处理以及生物信息等领域体现了很大的价值。平时,经常能接触到涉及 HMM 的相关文章,一直没有仔细研究过,都是蜻蜓点水,因此,想花一点时间梳理下,加深理解,在此特别感谢 52nlp 对 HMM 的详细介绍。 考虑下面交通灯的转载 2015-08-07 19:45:36 · 808 阅读 · 0 评论 -
似然函数的概念
在数理统计学中,似然函数是一种关于统计模型中的参数的函数,表示模型参数中的似然性。似然函数在统计推断中有重大作用,如在最大似然估计和费雪信息之中的应用等等。“似然性”与“或然性”或“概率”意思相近,都是指某种事件发生的可能性,但是在统计学中,“似然性”和“或然性”或“概率”又有明确的区分。概率 用于在已知一些参数的情况下,预测接下来的观测所得到的结果,而似然性 则是用于在已转载 2015-11-14 11:16:35 · 441 阅读 · 0 评论 -
聚类算法K-Means, K-Medoids, GMM, Spectral clustering,Ncut .
聚类算法是ML中一个重要分支,一般采用unsupervised learning进行学习,本文根据常见聚类算法分类讲解K-Means, K-Medoids, GMM, Spectral clustering,Ncut五个算法在聚类中的应用。Clustering Algorithms分类1. Partitioning approach: 建立数据的不同分割,然后转载 2015-11-14 11:35:32 · 505 阅读 · 0 评论 -
逻辑回归
什么是逻辑回归?Logistic回归与多重线性回归实际上有很多相同之处,最大的区别就在于它们的因变量不同,其他的基本都差不多。正是因为如此,这两种回归可以归于同一个家族,即广义线性模型(generalizedlinear model)。这一家族中的模型形式基本上都差不多,不同的就是因变量不同。如果是连续的,就是多重线性回归;如果是二项分布,就是Logistic回归;转载 2015-11-14 12:46:51 · 366 阅读 · 0 评论 -
正则化
斯坦福大学机器学习第七课"正则化“学习笔记,本次课程主要包括4部分:1) The Problem of Overfitting(过拟合问题)2) Cost Function(成本函数)3) Regularized Linear Regression(线性回归的正则化)4) Regularized Logistic Regression(逻辑回归的正则化)转载 2015-11-14 12:48:37 · 955 阅读 · 0 评论 -
决策树算法
一、简介决策树是一个预测模型;他代表的是对象属性与对象值之间的一种映射关系。树中每个节点表示某个对象,而每个分叉路径则代表的某个可能的属性值,而每个叶结点则对应从根节点到该叶节点所经历的路径所表示的对象的值。决策树仅有单一输出,若欲有复数输出,可以建立独立的决策树以处理不同输出。 数据挖掘中决策树是一种经常要用到的技术,可以用于分析数据,同样也可以用来作预测(就像上面的银行官员用他来预测贷转载 2015-11-14 20:39:18 · 555 阅读 · 0 评论 -
K-means聚类算法
1.概念 k-means 算法接受输入量 k ;然后将n个数据对象划分为 k个聚类以便使得所获得的聚类满足:同一聚类中的对象相似度较高;而不同聚类中的对象相似度较小。聚类相似度是利用各聚类中对象的均值所获得一个“中心对象”(引力中心)来进行计算的。2.一般介绍 聚类属于无监督学习,以往的回归、朴素贝叶斯、SVM等都是有类别标签y的,也就是说样例中已经给出了样转载 2015-11-14 20:39:48 · 497 阅读 · 0 评论 -
径向基函数(RBF)神经网络
Data Mining径向基函数(RBF)神经网络RBF网络能够逼近任意的非线性函数,可以处理系统内的难以解析的规律性,具有良好的泛化能力,并有很快的学习收敛速度,已成功应用于非线性函数逼近、时间序列分析、数据分类、模式识别、信息处理、图像处理、系统建模、控制和故障诊断等。简单说明一下为什么RBF网络学习收敛得比较快。当网络的一个或多个可调参数(权值或阈值)对任何一转载 2015-10-29 20:05:10 · 2741 阅读 · 0 评论 -
最大后验估计(MAP)
最大后验估计是根据经验数据获得对难以观察的量的点估计。与最大似然估计类似,但是最大的不同时,最大后验估计的融入了要估计量的先验分布在其中。故最大后验估计可以看做规则化的最大似然估计。 首先,我们回顾上篇文章中的最大似然估计,假设x为独立同分布的采样,θ为模型参数,f为我们所使用的模型。那么最大似然估计可以表示为: 现在,假设θ的先验分布为g。通过贝叶斯理论,对原创 2015-11-22 21:08:52 · 558 阅读 · 0 评论 -
最大似然估计(Maximum likelihood estimation)
最大似然估计提供了一种给定观察数据来评估模型参数的方法,即:“模型已定,参数未知”。简单而言,假设我们要统计全国人口的身高,首先假设这个身高服从服从正态分布,但是该分布的均值与方差未知。我们没有人力与物力去统计全国每个人的身高,但是可以通过采样,获取部分人的身高,然后通过最大似然估计来获取上述假设中的正态分布的均值与方差。 最大似然估计中采样需满足一个很重要的假设,就是所有的原创 2015-11-22 21:10:31 · 863 阅读 · 0 评论 -
谷歌工程师利用和语言翻译类似的技术开发出了一个用于翻译图片主题的机器学习算法
谷歌工程师利用和语言翻译类似的技术开发出了一个用于翻译图片主题的机器学习算法将一种语言自动翻译成另一种语言一直以来都是难以攻克的问题。但最近几年,谷歌通过开发机器翻译算法改变了传统的翻译过程,通过谷歌翻译从本质上改变了跨文化翻译交流。如今,谷歌正在运用同样的机器学习技术将图片转变为文字。其结果就是自动产生能够准确描述图片内容的标题。该技术将用在互联网搜索引擎,图片自动发表,原创 2015-12-08 21:15:57 · 505 阅读 · 0 评论 -
判别式模型与生成式模型
判别式模型该模型主要对p(y|x)建模,通过x来预测y。在建模的过程中不需要关注联合概率分布。只关心如何优化p(y|x)使得数据可分。通常,判别式模型在分类任务中的表现要好于生成式模型。但判别模型建模过程中通常为有监督的,而且难以被扩展成无监督的。 常见的判别式模型有: Logistic regression Linear discriminant a转载 2015-11-22 21:13:02 · 454 阅读 · 0 评论 -
拉格朗日对偶性和似然函数
在学习最大熵模型和SVM的过程中,我们看到,前者需要求解满足所有已知条件并且使得熵最大的模型,后者需要求解满足间隔一致性约束条件并且使得几何间隔最大的超平面,归结起来其求解问题都是带约束的极值问题,其解决方法一般采用拉格朗日对偶原理,对于概率性问题也可以用极大似然法来求解。下面简单介绍拉格朗日对偶原理和似然函数。拉格朗日对偶原理:约束条件可以分成不等式约束条件和等式约束条件,只有等原创 2015-11-25 09:40:41 · 947 阅读 · 0 评论 -
高斯过程分类原理
高斯过程原理: 连续型变量中最普遍的分布就是高斯分布,即正态分布,也是学习和生活中接触最广的分布。一元高斯分布由均值 和方差 2 两个参数所确定。其概率密度形如: 多元高斯分布由均值向量 E x ( ) 和协方差矩阵cov( ) x 所确定,协方差矩阵式对称且正定,其概率密度形如:原创 2015-12-18 09:59:53 · 14231 阅读 · 2 评论 -
四大机器学习降维算法:PCA、LDA、LLE、Laplacian Eigenmaps
引言机器学习领域中所谓的降维就是指采用某种映射方法,将原高维空间中的数据点映射到低维度的空间中。降维的本质是学习一个映射函数 f : x->y,其中x是原始数据点的表达,目前最多使用向量表达形式。 y是数据点映射后的低维向量表达,通常y的维度小于x的维度(当然提高维度也是可以的)。f可能是显式的或隐式的、线性的或非线性的。目前大部分降维算法处理向量表达的数据,也有一些降维算法处理高转载 2015-12-02 14:25:30 · 796 阅读 · 0 评论 -
Sparsity稀疏编码(一)
稀疏编码来源于神经科学,计算机科学和机器学习领域一般一开始就从稀疏编码算法讲起,上来就是找基向量(超完备基),但是我觉得其源头也比较有意思,知道根基的情况下,拓展其应用也比较有底气。哲学、神经科学、计算机科学、机器学习科学等领域的砖家、学生都想搞明白人类大脑皮层是如何处理外界信号的,大脑对外界的“印象”到底是什么东东。围绕这个问题,哲学家在那想、神经科学家在那用设备观察、计算机和机器学习科学家则是转载 2015-11-13 20:48:54 · 646 阅读 · 0 评论 -
稀疏编码最优化解法
稀疏编码的概念来自于神经生物学。生物学家提出,哺乳类动物在长期的进化中,生成了能够快速,准确,低代价地表示自然图像的视觉神经方面的能力。我们直观地可以想象,我们的眼睛每看到的一副画面都是上亿像素的,而每一副图像我们都只用很少的代价重建与存储。我们把它叫做稀疏编码,即Sparse Coding.稀疏编码的目的是在大量的数据集中,选取很小部分作为元素来重建新的数据。稀疏编码难点之一是其转载 2015-11-13 20:51:54 · 549 阅读 · 0 评论 -
稀疏编码(Sparse Coding)(二)
为了更进一步的清晰理解大脑皮层对信号编码的工作机制(策略),需要把他们转成数学语言,因为数学语言作为一种严谨的语言,可以利用它推导出期望和要寻找的程式。本节就使用概率推理(bayes views)的方式把稀疏编码扩展到随时间变化的图像上,因为人类或者哺乳动物在日常活动中通过眼睛获取的信号是随时间变化而变化的,对于此类信号仍然有一些稀疏系数和基可以描述他们,同类型的处理方式也有慢特征分析(slow转载 2015-11-13 20:49:49 · 1130 阅读 · 0 评论 -
信息熵
信息熵是对信息的度量,那什么又是信息呢? 直观上的理解就是,知道我们原来不知道的事物就是获得信息的过程,因此对于个人来说,一件事的未知性越大,即不确定性越大,相应的信息就应该越大,传输或者存储应该付出更多的代价。例如我们说太阳从东边升起,这是一件必然的事,听到这句话没有获得任何信息,因此它的熵是0,信息论中信息与不确定性等价。有了这个直观认识,可以对其数学化,在数学中表达不确定性的就是概率原创 2015-11-14 10:40:08 · 439 阅读 · 0 评论 -
朴素贝叶斯分类器
朴素贝叶斯分类器是基于条件独立性提出的一种分类方法。现实中存在这样一类问题,特征的个数远大于训练集的个数或者与训练集个数相当,因此容易出现过拟合现象。如在文档分类问题,我们的目标对是一篇文档进行分类,可以把文档的每个词看做文档的一个特征,这样每篇文档就会有大量的特征出现,如果训练样本不够大,就会过拟合。朴素贝叶斯提出一种简单的处理方法,即认为在给定文档分类标号的情况下,词的出现是相互独立的,假设一转载 2015-11-14 10:35:21 · 478 阅读 · 0 评论 -
Adaboost 算法的原理与推导
Adaboost 算法的原理与推导0 引言 一直想写Adaboost来着,但迟迟未能动笔。其算法思想虽然简单:听取多人意见,最后综合决策,但一般书上对其算法的流程描述实在是过于晦涩。昨日11月1日下午,邹博在我组织的机器学习班第8次课上讲决策树与Adaboost,其中,Adaboost讲得酣畅淋漓,讲完后,我知道,可以写本篇博客了。转载 2015-11-13 21:27:31 · 517 阅读 · 0 评论 -
Kmeans算法介绍及其实现
KMeans算法的基本思想是初始随机给定K个簇中心,按照最邻近原则把待分类样本点分到各个簇。然后按平均法重新计算各个簇的质心,从而确定新的簇心。一直迭代,直到簇心的移动距离小于某个给定的值。 K-Means聚类算法主要分为三个步骤:(1)第一步是为待聚类的点寻找聚类中心(2)第二步是计算每个点到聚类中心的距离,将每个点聚类到离该点最近的聚类中去(3)第三步是计算每个聚类中所有点转载 2015-08-07 20:38:15 · 749 阅读 · 0 评论 -
单变量线性回归
1 模型表示参考视频: 2 - 1 - Model Representation (8 min).mkv本课程讲解的第一个算法为"回归算法",本节将要讲解到底什么是Model。下面,以一个房屋交易问题为例开始讲解,如下图所示(从中可以看到监督学习的基本流程)。所使用的数据集为俄勒冈州波特兰市的住房价格,根据数据集中的不同房屋尺寸所对应的出售价格,绘制出了数据集;转载 2015-08-07 20:28:59 · 1003 阅读 · 0 评论 -
Logistic回归
谓LR分类器(Logistic Regression Classifier),并没有什么神秘的。在分类的情形下,经过学习之后的LR分类器其实就是一组权值w0,w1,...,wm. 当测试样本集中的测试数据来到时,这一组权值按照与测试数据线性加和的方式,求出一个z值:z = w0+w1*x1+w2*x2+...+wm*xm。 ① (其中x1,x2,...,xm是某样本数据的各个特征,维度转载 2015-08-08 17:27:15 · 700 阅读 · 0 评论 -
GMM
GMM的EM算法实现分类: Data Mining Machine Learning在 聚类算法K-Means, K-Medoids, GMM, Spectral clustering,Ncut一文中我们给出了GMM算法的基本模型与似然函数,在EM算法原理中对EM算法的实现与收敛性证明进行了详细说明。本文主要针对如何用EM算法在混合高斯模型下进行聚类进行代码上的分析转载 2015-08-07 18:25:47 · 1009 阅读 · 0 评论 -
EM算法
EM算法主要求概率密度中未知的参数,下面主要介绍EM的整个推导过程。1. Jensen不等式 回顾优化理论中的一些概念。设f是定义域为实数的函数,如果对于所有的实数x,,那么f是凸函数。当x是向量时,如果其hessian矩阵H是半正定的(),那么f是凸函数。如果或者,那么称f是严格凸函数。 Jensen不等式表述如下: 如果f是凸函数,X是随机转载 2015-08-10 15:20:01 · 460 阅读 · 0 评论 -
混合高斯模型(Mixtures of Gaussians)和EM算法
与k-means一样,给定的训练样本是,我们将隐含类别标签用表示。与k-means的硬指定不同,我们首先认为是满足一定的概率分布的,这里我们认为满足多项式分布,,其中,有k个值{1,…,k}可以选取。而且我们认为在给定后,满足多值高斯分布,即。由此可以得到联合分布。 整个模型简单描述为对于每个样例,我们先从k个类别中按多项式分布抽取一个,然后根据所对应的k个多值高斯分布中的一个生成样转载 2015-08-10 16:05:56 · 565 阅读 · 0 评论 -
机器学习中的相似性度量
在做分类时常常需要估算不同样本之间的相似性度量(Similarity Measurement),这时通常采用的方法就是计算样本间的“距离”(Distance)。采用什么样的方法计算距离是很讲究,甚至关系到分类的正确与否。 本文的目的就是对常用的相似性度量作一个总结。本文目录:1. 欧氏距离2. 曼哈顿距离3. 切比雪夫距离4. 闵可夫斯转载 2015-11-06 16:24:51 · 306 阅读 · 0 评论 -
池化方法总结(Pooling)
在卷积神经网络中,我们经常会碰到池化操作,而池化层往往在卷积层后面,通过池化来降低卷积层输出的特征向量,同时改善结果(不易出现过拟合)。为什么可以通过降低维度呢?因为图像具有一种“静态性”的属性,这也就意味着在一个图像区域有用的特征极有可能在另一个区域同样适用。因此,为了描述大的图像,一个很自然的想法就是对不同位置的特征进行聚合统计,例如,人们可以计算图像一个区域上的某个特定特征的转载 2015-11-13 20:56:40 · 3807 阅读 · 0 评论 -
谱聚类算法(Spectral Clustering)优化与扩展
谱聚类算法(Spectral Clustering)优化与扩展 谱聚类(Spectral Clustering, SC)在前面的博文中已经详述,是一种基于图论的聚类方法,简单形象且理论基础充分,在社交网络中广泛应用。本文将讲述进一步扩展其应用场景:首先是User-Item协同聚类,即spectral coclustering,之后再详述谱聚类的进一步优化。转载 2015-11-13 21:00:52 · 1877 阅读 · 0 评论 -
逻辑回归模型(Logistic Regression, LR)基础
逻辑回归模型(Logistic Regression, LR)基础逻辑回归(Logistic Regression, LR)模型其实仅在线性回归的基础上,套用了一个逻辑函数,但也就由于这个逻辑函数,使得逻辑回归模型成为了机器学习领域一颗耀眼的明星,更是计算广告学的核心。本文主要详述逻辑回归模型的基础,至于逻辑回归模型的优化、逻辑回归与计算广告学等,请关注后续文章。1转载 2015-11-13 21:01:56 · 1263 阅读 · 0 评论 -
stl-vector详解
stl-vector详解stl-vector是应用最广泛的一种容器,类似于array,都将数据存储于连续空间中,支持随机访问。相对于array,vector对空间应用十分方便、高效,迭代器使vector更加灵活、安全。设计皆由vector起,键盘之下尽vector。1 vector本质 vector数据结构如下,通过三个迭代器start, finish,转载 2015-11-13 21:06:31 · 481 阅读 · 0 评论 -
损失函数-经验风险最小化-结构风险最小化
1、损失函数最简单的理解就是,给定一个实例,训练的模型对它的预测结果错了,就要受到惩罚, 因此需要定义一个量度量预测错误的程度,而损失函数就是用来衡量错误的程度。常见的损失函数有如下几类(用 来表示损失函数):假设输入是X,输出是f(X),真实值是Y。(1)0-1损失函数(0-1 loss function) (2)平方损失函数(quadrat原创 2015-11-13 22:37:41 · 4444 阅读 · 0 评论 -
Logistic and Softmax Regression (逻辑回归和Softmax回归)
1.简介逻辑回归和Softmax回归是两个基础的分类模型,虽然听名字以为是回归模型,但实际我觉得他们也有一定的关系。逻辑回归,Softmax回归以及线性回归都是基于线性模型,它们固定的非线性的基函数(basis function) 的线性组合,形式如下:2.逻辑回归谈谈逻辑回归,Softmax回归,前者主要处理二分类问题,而后者处理多分类问题,但事实上Softmax回归就是逻辑转载 2015-11-14 10:23:13 · 412 阅读 · 0 评论 -
最大似然估计法
最大似然估计的原理:给定一个概率分布,假定其概率密度函数(连续分布)或概率聚集函数(离散分布)为,以及一个分布参数,我们可以从这个分布中抽出一个具有个值的采样,通过利用,我们就能计算出其概率:但是,我们可能不知道的值,尽管我们知道这些采样数据来自于分布。那么我们如何才能估计出呢?一个自然的想法是从这个分布中抽出一个具有个值的采样,然后用这些采样数据来估计.一旦我原创 2015-11-14 11:19:15 · 848 阅读 · 0 评论 -
梯度下降原理及在线性回归、逻辑回归中的应用
1 基本概念1)定义梯度下降法,就是利用负梯度方向来决定每次迭代的新的搜索方向,使得每次迭代能使待优化的目标函数逐步减小。梯度下降法是2范数下的最速下降法。 最速下降法的一种简单形式是:x(k+1)=x(k)-a*g(k),其中a称为学习速率,可以是较小的常数。g(k)是x(k)的梯度。梯度其实就是函数的偏导数。2)举例对于函数z=f(x,y),转载 2015-11-14 13:03:21 · 677 阅读 · 0 评论 -
谱聚类算法(Spectral Clustering)
谱聚类算法(Spectral Clustering) 谱聚类(Spectral Clustering, SC)是一种基于图论的聚类方法——将带权无向图划分为两个或两个以上的最优子图,使子图内部尽量相似,而子图间距离尽量距离较远,以达到常见的聚类的目的。其中的最优是指最优目标函数不同,可以是割边最小分割——如图1的Smallest cut(如后文的Min cut), 也转载 2015-11-13 21:00:11 · 601 阅读 · 0 评论 -
Sparsity稀疏编码(三)
稀疏编码(sparse coding)和低秩矩阵(low rank)的区别 上两个小结介绍了稀疏编码的生命科学解释,也给出一些稀疏编码模型的原型(比如LASSO),稀疏编码之前的探讨文章就不说了,今天开始进入机器学习领域的稀疏表达。稀疏编码进入机器学习领域后,出现了很多应用,比如计算视觉领域的图像去噪,去模糊,物体检测,目标识别和互联网领域的推荐系统(Collaborative转载 2015-11-13 20:50:44 · 533 阅读 · 0 评论