机器学习
文章平均质量分 56
lijiankou
这个作者很懒,什么都没留下…
展开
-
极大似然估计和贝叶斯估计
极大似然估计和贝叶斯估计分别代表了频率派和贝叶斯派的观点。频率派认为,参数是客观存在的,只是未知而矣。因此,频率派最关心极大似然函数,只要参数求出来了,给定自变量X,Y也就固定了,极大似然估计如下所示:D表示训练数据集,是模型参数相反的,贝叶斯派认为参数也是随机的,和一般随机变量没有本质区别,正是因为参数不能固定,当给定一个输入x后,我们不能用一个确定的y表原创 2013-06-28 19:32:59 · 932 阅读 · 0 评论 -
概率隐语义分析和奇异值分解
推荐系统中经常用到的两个基本模型,一个是概率隐语分析(Probabilistic Latent Semantic Indexing简称PLSA),另一个是奇异值分解(SVD),下面分析一下二者的区别和联系。从形式上看PLSA和SVD很像,如式(1)和 式(2),二者都是矩阵分解,都对原矩阵进行了降维,并且都是非监督学习。原创 2013-11-10 21:53:23 · 1559 阅读 · 1 评论 -
机器学习资料
一 经典教材1.Pattern Recognition and machine learning 豆瓣评分9.52.Machine Learning: A Probabilistic Perspective 豆瓣评分 9.43.统计学习方法 李航 豆瓣评分 8.54. Bayesian Reasoning and Machine Learning 豆瓣原创 2013-09-03 23:29:40 · 1219 阅读 · 0 评论 -
主成分分析
主成分分析是一种降维方法,主要用于数据压缩,数据可视化以及特征提取等方面。 现实中我们经常可以遇到维数很高的数据,如一张28*28的图片,可以看作维度为784。类似图片这样的高维数据,实际上各个维度之间具有高度的关联性,即维度之间并非完全独立的。通过进行主成分分析,可以将数据的主要特征提取出来,忽略非 重要特征,从而对数据进行压缩。这里的主成分代表一组规范正交基,每个基用表示,并且满足。假设X表示原创 2013-10-31 21:19:43 · 3523 阅读 · 0 评论 -
概率主成分分析
前面介绍了主成分分析,概率主成分分析是对主成分分析在概率上的一种推广。 概率的引入,为主成分分析带来极大的好处。下面简单介绍概率主成分分析的 导出以及和主成分分析的关系。 在概率主成分分析里面,假设预测数据x是由一个隐变量z生成的,并且隐变量z以及条件概率p(x|z)均服从高斯分布。根据高斯分布的性质,x的边缘分布p(x)也服从高斯分布,因为有了原创 2013-10-31 23:31:18 · 6917 阅读 · 1 评论 -
马尔可夫链蒙特卡罗算法
抽样算法的主要任务是找到符合给定分布的一系列样本。对于简单的分布,可以通过基本的抽样算法进行抽样。大多数分布都是不容易直接抽样的,马尔可夫链蒙特卡罗算法解决了不能通过简单抽样算法进行抽样的问题,是一种重要的实用性很强的抽样算法。马尔可夫链蒙特卡罗算法(简写为MCMC)的核心思想是找到某个状态空间的马尔可夫链,使得该马尔可夫链的稳定分布就是我们的目标分布。这样我们在该状态空间进行随机游走的时原创 2013-10-16 17:17:50 · 2128 阅读 · 0 评论 -
推断和学习
在机器学习里面经常遇到推断和学习两个词,下面对其进行区分。图模型通常包括三种节点,观测变量、隐变量和参数, 分别用 表示。习惯上把计算隐变量分布的过程称作推断,把对参数的后验估计称作学习。具体的,推断是指计算的过程, 而学习是计算的过程。 在上面的过程中,如果先验分布是均匀分布,那么 极大后验估计就退化成了极大似然估计。 这样的区分是有一定道理的,通常情况下,参数的个原创 2013-10-07 11:12:56 · 982 阅读 · 0 评论 -
相关向量机
相关向量机是一种稀疏概率模型,是一种核函数作为基函数且参数具有独立先验精度(方差)的特殊线性回归模型。相关向量机的出现弥补了支持向量机的一些不足,如提供了概率解释,不要求核函数必须是正定的,同时保留了支持向量机的一些优点,如它的解是稀疏的,运用核函数在低维空间处理高维空间的问题。相关向量机是一种线性回归模型,只是比通常的模型加了一些限制,线性模型均值如下所示: (1)原创 2013-09-12 22:37:32 · 5456 阅读 · 0 评论 -
拉格朗日对偶性
拉格朗日对偶性是解决带约束的最优化问题的方法,在实际应用中,通过拉格朗日对偶原理将原始问题转换成对偶问题,将原来不容易解决的问题转化为一个容易解决的问题,如支持向量机。原始问题假设,是定义在上的连续可微函数,原始问题如下所示:引进广义拉格郞日函数那么原始问题等价于如下问题即原创 2013-09-08 20:11:07 · 1815 阅读 · 0 评论 -
伽玛分布
伽玛分布是统计学中的一种连续概率函数,包含两个参数a和b,其中a称为形状参数,b称为率参数,定义如下:令(尺度参数),得到伽玛分布的另一种形式,其中称为伽玛函数,是阶乘运算在实数集上的泛化,满足.伽玛分布一个重要应用就是作为共轭分布出现在很多机器学习算法中, 假设,其中是期望,是精度,并且假设期望已知, 那么N个观测值的似然函数如下:原创 2013-09-08 19:28:30 · 11078 阅读 · 1 评论 -
机器学习算法及应用领域相关的中国大牛
李航:http://research.microsoft.com/en-us/people/hangli/,是MSRA Web Search and Mining Group高级研究员和主管,主要研究领域是信息检索,自然语言处理和统计学习。近年来,主要与人合作使用机器学习方法对信息检索中排序,相关性等问题的研究。曾在人大听过一场他的讲座,对实际应用的问题抽象,转化和解决能力值得学习。周志华转载 2013-09-06 13:32:53 · 1226 阅读 · 0 评论 -
朴素贝叶斯分类器
朴素贝叶斯分类器是一个相对简单的分类器,是一种基于贝叶斯定理与特征条件独立假设的分类方法。它的原理容易理解,不过因为多特征的出现,使得在写似然函数的时候容易混乱。输入:(x, y), M表示特征数,所以,y表示种类标号,我们用1-of-k的方式表示,即y表示一个K维向量,该向量中有且仅有一个元素是1,其余元素为0. 类内条件概率分布如下所示: (1)这里利用了特征原创 2013-07-28 20:42:40 · 1265 阅读 · 0 评论 -
贝叶斯模型比较
过拟合是机器学习中常见的问题之一,指的是一个模型由于过度复杂造成在训练集中表现良好而在测试集中表现很差的现象,通常是由于参数过多,导致数据相对变小造成的。如果采用极大似然估计的方式进行参数的点估计,复杂的模型总是拟合出更好的结果,但是由于模型过于复杂,它的泛化能力并不好。采用贝叶斯模型比较的方式可以自然的选择一个复杂度适中的模型。对于一个给定数据集D,我们计算后验概率,如下:翻译 2013-07-24 11:01:54 · 1666 阅读 · 0 评论 -
高斯过程
高斯过程是定义在y上的高斯分布。高斯过程与核函数紧密相连,定义在y上的高斯分布正是通过核函数表示出来的。与线性回归相比,高斯过程没有建立y和x的直接关系,而是通过核函数的方式直接建立y之间的关系。在线性回归模型中,我们假设某个y的取值服从一个高斯分布,即y的均值是参数w的一个线性关系,和之间的关系通过w的协方差表现出来。如果给定一个先验,那么可以计算出y的协方差矩阵,如下: (1)原创 2013-08-21 00:46:06 · 6535 阅读 · 0 评论 -
广义线性模型
广义线性模型是经典线性模型的推广,因此要了解广义线性模型,我们先看一下经典线形模型。给定一个预测值y,经典线性模型假设y是由两部分组成,一部分是随机成分,另一部分是确定成分。对于随机成分而言,假设y是随机变量Y的观测值,并且Y的均值是。对于确定成分而言,我们假设服从如下关系: x是输入变量,w是相应的参数 对于随机的部分,我们通常会假设随机变量的误差是独立且原创 2013-07-21 01:04:36 · 1336 阅读 · 0 评论 -
主成分分析和核函数
主成分分析(PCA)的主要作用是降低数据的维度,提取其主要特征,因为现实中很多数据都是很稀疏的,通过提取主要特征过滤噪音发现其潜在的规律;核函数表示了两个数据之间的相似性。那么这两者之间存在什么样的关系?直观上理解,PCA和核侧重的是两个相反的方向,下面给出解释。考虑下面的高斯核,此时协方差矩阵为对角矩阵,当不是对角矩阵的时候,可以通过相似变换到一个对角矩阵。原创 2013-06-28 19:34:23 · 1224 阅读 · 0 评论 -
nips 2013 deep learning 深度学习相关论文 (仅参考题目)
Adaptive dropout for training deep neural networksJ. Ba, B. FreyA Deep Architecture for Matching Short TextsZ. Lu, H. LiA Scalable Approach to Probabilistic Latent Space Inference of L转载 2013-12-14 10:51:21 · 1764 阅读 · 0 评论