Algorithms
meaworld
这个作者很懒,什么都没留下…
展开
-
EM算法The EM Algorithm
EM是我一直想深入学习的算法之一,第一次听说是在NLP课中的HMM那一节,为了解决HMM的参数估计问题,使用了EM算法。在之后的MT中的词对齐中也用到了。在Mitchell的书中也提到EM可以用于贝叶斯网络中。下面主要介绍EM的整个推导过程。1. Jensen不等式 回顾优化理论中的一些概念。设f是定义域为实数的函数,如果对于所有的实数x,,那么f是凸函数。当x是转载 2013-01-23 16:40:50 · 717 阅读 · 0 评论 -
混合高斯模型(Mixtures of Gaussians)和EM算法
这篇讨论使用期望最大化算法(Expectation-Maximization)来进行密度估计(density estimation)。 与k-means一样,给定的训练样本是,我们将隐含类别标签用表示。与k-means的硬指定不同,我们首先认为是满足一定的概率分布的,这里我们认为满足多项式分布,,其中,有k个值{1,…,k}可以选取。而且我们认为在给定后,满足多值高斯分布,即。由转载 2013-01-23 16:43:37 · 952 阅读 · 0 评论 -
K-means聚类算法
K-means也是聚类算法中最简单的一种了,但是里面包含的思想却是不一般。最早我使用并实现这个算法是在学习韩爷爷那本数据挖掘的书中,那本书比较注重应用。看了Andrew Ng的这个讲义后才有些明白K-means后面包含的EM思想。 聚类属于无监督学习,以往的回归、朴素贝叶斯、SVM等都是有类别标签y的,也就是说样例中已经给出了样例的分类。而聚类的样本中却没有给定y,只有特征x,比如转载 2013-01-23 16:45:34 · 964 阅读 · 0 评论 -
规则化和模型选择(Regularization and model selection)
1 问题 模型选择问题:对于一个学习问题,可以有多种模型选择。比如要拟合一组样本点,可以使用线性回归,也可以用多项式回归。那么使用哪种模型好呢(能够在偏差和方差之间达到平衡最优)? 还有一类参数选择问题:如果我们想使用带权值的回归模型,那么怎么选择权重w公式里的参数?形式化定义:假设可选的模型集合是,比如我们想分类,那么SVM、logistic回归、神经网络转载 2013-01-23 16:47:49 · 1020 阅读 · 0 评论 -
子模的性质(submodular)
A是B的子集,则对于函数f(),如果:f(A+e)-f(A)>=f(B+e)-f(B)成立,则说f()函数是子模的。增益递减。例子如下:u={1,2,3,4,5,6,7,8}A={1,2,3}B={1,2,3,5,6}f(A)=|A| 集合A的个数所以:f(A+e)-f(A)>=f(B+e)-f(B),例如e={3,4,5}原创 2013-01-21 13:28:53 · 16206 阅读 · 1 评论 -
P,NP,NP-C,NP-hard问题
P问题:在确定的机器上,在多项式时间内能够解决的问题NP问题:在多项式时间内可以验证的判定问题。NP-Hard问题:问题A称为NP-Hard问题,如果对于任意一个NP问题,都可以在多项式时间内规约为A。NP-C:既是NP问题,又是NP-Hard问题#P:全是计数问题。NP都是判定问题,NP-Hard都是优化问题。原创 2013-01-21 14:37:33 · 2673 阅读 · 0 评论 -
CELF优化的贪心算法
用一个例子说明如下:问题描述如下:从一组节点中,取出一组k个种子节点S,使得产生的增益最大。对任意的a属于A,f(a):a加入之后的增益。有如下一个表:初始扫描情况,第0轮,各个节点产生的增益情况。(用优先队列存储)1>.,取出第一行a1 ,10,0因为此时是第0轮,0==0加入S,因为第0轮加入a1时候增益最大。此时表如下:2>此时再取出首行,为原创 2013-01-21 13:56:47 · 8350 阅读 · 1 评论