Machine Learning
文章平均质量分 78
iteye_14216
这个作者很懒,什么都没留下…
展开
-
交叉验证
交叉验证(Cross validation)是一种评估统计分析、机器学习算法对独立于训练数据的数据集的泛化能力(generalize),交叉验证一般要尽量满足:1)训练集的比例要足够多,一般大于一半2)训练集和测试集要均匀抽样交叉验证主要分成以下几类:1)k-folder cross-validation:最初的样本被随机均匀的分成k个子集,每个子集均做一次测试集,其余的作...2010-09-21 22:33:25 · 237 阅读 · 0 评论 -
模式识别和机器学习 笔记 第二章 概率分布
这章主要介绍概率分布及其特性。这些基本的分布可以像堆积木一样形成更复杂的模型。讨论了一些统计学的关键概念,比如 Bayesian inference。概率分布的一个角色是:给定一个随机变量x有限集合的观察值x1,x2….xn,对概率分布p(x)进行建模,即概率密度估计。首先介绍离散型贝努力分布、二项式分布和多项式分布和连续型的Gaussian分布。一个特殊的问题就是参数化估计问题,根...原创 2011-03-21 23:52:40 · 244 阅读 · 0 评论 -
模式识别和机器学习 笔记 第三章 线性回归模型
第三章 线性回归模型 这章主要介绍线性回归模型,回归问题的目标是给一个D-维的输入变量,预测出一个或者多个目标连续变量的值。第一章已经介绍了多项式曲线拟合的问题,这个是特殊的回归问题,被称为线性回归模型。通过线性组合基本函数,可以获得很有用的一类函数,具有很简单的分析属性,并且由于基本函数可以不是线性函数,所以相对于输入来说,具有非线性,可以描述相对复杂的问题。 ...2011-04-27 14:08:23 · 399 阅读 · 0 评论 -
loss function
几种损失函数:对于回归问题:平方损失:[img]http://latex.codecogs.com/gif.latex?l\(y,\hat{y}\)=\(y-\hat{y}\)^2[/img]绝对值损失:[img]http://latex.codecogs.com/gif.latex?l\(y,\hat{y}\)=|y-\hat{y}|[/img][img]http://latex...原创 2012-05-11 22:54:34 · 183 阅读 · 0 评论 -
使用SGD(Stochastic Gradient Descent)进行大规模机器学习
[size=x-large]使用SGD(Stochastic Gradient Descent)进行大规模机器学习[/size]1 基于梯度下降的学习对于一个简单的机器学习算法,每一个样例包含了一个(x,y)对,其中一个输入x和一个数值输出y。我们考虑损失函数[img]http://latex.codecogs.com/gif.latex?l\(\hat{y},y\)[...原创 2012-05-11 23:01:29 · 546 阅读 · 0 评论 -
信息论学习总结(一)基础知识
我们考虑一下一个离散的随机变量x,当我们观察到它的一个值,能给我们带来多少信息呢?这个信息量可以看做是我们观察到x的这个值带来的惊讶程度。我们被告知一个不太可能发生的事发生了要比告知一个非常可能发生的事发生,我们获得信息要多。所以信息量的多少依赖于概率分布p(x),所以我们可以用关于p(x)的一个函数来建模信息量h(x).那什么函数模型适合表达呢?我们观察两个相互独立的事件x,y,我们观察...原创 2012-06-02 22:57:43 · 1822 阅读 · 0 评论 -
Deep learning的一些有用链接
deeplearning tutorials:[url]http://deeplearning.net/tutorials/[/url][url]http://www.iro.umontreal.ca/~bengioy/papers/ftml_book.pdf[/url]Restricted boltzmann machine:[url]http://deeplearning.ne...原创 2012-11-12 19:09:10 · 150 阅读 · 0 评论 -
[ZZ]计算机视觉、模式识别、机器学习常用牛人主页链接
牛人主页(主页有很多论文代码)SergeBelongie at UC San DiegoAntonioTorralba at MITAlexeiFfros at CMUCeLiu at Microsoft Research New EnglandVittorioFerrari at Univ.of Edin...原创 2012-11-30 13:13:28 · 337 阅读 · 0 评论 -
Deep learning的一些教程[rz]
转载自http://baojie.org/blog/2013/01/27/deep-learning-tutorials/ Stanford Deep Learning wiki: http://deeplearning.stanford.edu/wiki/index.php/Main_Page 几个不错的深度学习教程,基本都有视频和演讲稿。附两篇综述文章和一副漫画。还...原创 2013-02-03 19:14:06 · 277 阅读 · 0 评论 -
机器学习在公司的分享
机器学习在公司的分享,ppt见附件,主要简单介绍了机器学习:机器学习概念相关学科机器学习三大要素生成模型和判别模型频率派和贝叶斯派基本算法的直观理解模型选择模型组合-Ensemble MethodOnline LearningStructure LearningDeep Learning机遇和挑战机器学习适用场景...原创 2013-02-23 12:38:14 · 206 阅读 · 0 评论 -
机器学习常用工具
机器学习 Support Vector MachineSVMlightAn implementation of Vapnik's Support Vector MachineLIBSVMA Library for Support Vector Machines Decision TreeC...原创 2011-03-12 09:59:34 · 177 阅读 · 0 评论 -
[zz]Latent Dirichlet Allocation及Hierarchical LDA模型的必读文章和相关代码
LDA和HLDA:(1)D. M. Blei, et al., "Latent Dirichlet allocation," Journal of Machine Learning Research, vol. 3, pp. 993-1022, 2003.(2)T. L. Griffiths and M. Steyvers, "Finding scientific topics,"...原创 2011-02-18 00:09:52 · 266 阅读 · 0 评论 -
模式识别和机器学习 笔记 第一章Introduction
第一章 introduction首先举了一个手写识别的例子,介绍了机器学习的基本概念:训练集、测试集合、训练阶段/学习阶段、泛化能力(generalization)、特征选择/抽取、监督式学习、分类、回归、无监督式学习、聚类、密度估计、可视化、增强学习(reinforcementlearning).1.1 多项式曲线拟合的例子:对sin(2 * PI * x)曲线进行多项式拟合,根...原创 2011-02-10 23:11:08 · 204 阅读 · 0 评论 -
特征选择
特征选择是从特征集中选择出相关的特征子集。在文本分类中是从训练集合出现的term中选择出一部分子集的过程。特征选择有两个目的:1、通过减少特征空间选择更有效的特征,提高分类训练和应用的效率。2、去除噪音特征,提高分类的精度。对于文本分类,特征选择的算法一般一下流程:[code]select-features(D,c,k){//D指document,c指Category,k保...2010-09-23 14:45:06 · 183 阅读 · 0 评论 -
模式识别和机器学习 笔记 第四章 线性分类模型(一)
转载请标明出处: http://fuliang.iteye.com/blog/1060530在前面的章节,我们已经看到线性回归模型具有很简单的分析性和计算性。我么现在我们讨论这种类似的模型来解决分类问题。分类的目的是给出一个输入向量X,将它赋值为k个离散的类别Ck之一,通常的情景是类别是不想交的,每一个输入只会有一个类别。这样输入空间被分成决策区域,它的边界被称为决策边界。本章我们考虑用于...2011-05-26 23:36:01 · 985 阅读 · 0 评论 -
paper and book阅读
我微博每周读论文列表#每周读论文# 1、Parameter estimation for text analysis很好的介绍了参数估计的方法:最大似然、最大后验、贝叶斯估计,以及以LDA为例的文本参数估计方法以及Gibbs sampling实现。 #每周读论文# 2、A 250-year argument:belife, behavior, and the bootst...原创 2011-06-28 23:19:45 · 172 阅读 · 0 评论 -
构建自己的DSL之一 Simple Crawler
转载请标明出处:http://fuliang.iteye.com/blog/1122008经常需要从网上抓取一些需要的内容做成语料,供分类使用。所以需要一个灵活的抓取、抽取程序-自己的DSL来做这件事,这样每次只需要写几行代码就能得到需要的内容。比如我比较希望以下几行代码就能把我的博客的内容给抓下来:[code="ruby"]crawler = Crawler.new1.u...2011-07-11 22:08:56 · 341 阅读 · 0 评论 -
构建自己的DSL之二 抓取文本处理
转载请标明出处:http://fuliang.iteye.com/blog/1122051公司的蜘蛛抓取的内容一个记录是以TAB分割的各个字段的值,并且随着各种分类得分、正文静态得分策略的添加,版本不断的演变。每次做抽样、分析、分类语料等文本处理都需要写一些样板式的代码,并且得到wiki查找指定版本每个字段的位置。构建一个好的DSL来自动处理这件事情能够省去很多重复的操作,只需要关注要处理...2011-07-11 23:18:14 · 184 阅读 · 0 评论 -
构建自己的DSL之三 抓取文件管理
转载请标明出处:http://fuliang.iteye.com/blog/1127437我们抓取的网页抽取的结果是带有日期的文件,经常需要操作某个日期范围的文件,来进行统计,抽样,入库,所有需要一个方便的DSL来处理这件事情。我们希望制定几个条件就可以得到符合条件的文件,比如:[code="ruby"]data_set = CrawlerDataSet.with_cond d...原创 2011-07-18 23:26:21 · 188 阅读 · 0 评论 -
【zz】基于LDA的Topic Model变形
最近研究LDA挖掘隐含topic来对短文本分类,没想到师弟fandywang转载了一篇文章,可以作为一个很好的参考: 最近几年来,随着LDA的产生和发展,涌现出了一批搞Topic Model的牛人。我主要关注了下面这位大牛和他的学生:David M. BleiLDA的创始者,04年博士毕业。一篇关于Topic Model的博士论文充分体现其精深的数学概率功底;而其自己实现...原创 2011-01-11 23:48:46 · 218 阅读 · 0 评论 -
Ruby简单实现K-means聚类算法
K-means是一个简单容易实现的聚类算法,我们以对一个图片的颜色的RGB值进行聚类为例,实现这个算法。K-means算法是一个EM的迭代过程:1.随机选择k个作为聚类中心2.E step:对每一个点,计算它到每一个聚类中心的距离,把这个点分配到最近的聚类中心代表的聚类中。3.M step:重新计算每个聚类的中心:每个聚类中心为该聚类所有点的均值。重复2~3...2011-01-23 21:06:21 · 146 阅读 · 0 评论 -
【备忘】机器学习和信息检索常用的东东
1、多项式分布2、文本的多项式分布建模3、共轭先验4、概率平滑{Lapace平滑、加1平滑、Dirichlet贝叶斯平滑、2阶段语言模型}5、似然函数6、log似然函数7、期望最大化算法8、条件概率9、贝叶斯全公式10、生成模型11、判别模型12、条件期望13、拉格朗日系数14、VSM,LSI,...原创 2011-02-10 20:12:00 · 218 阅读 · 0 评论 -
[zz]推荐系统-从入门到精通
为了方便大家从理论到实践,从入门到精通,循序渐进系统地理解和掌握推荐系统相关知识。特做了个读物清单。大家可以按此表阅读,也欢迎提出意见和指出未标明的经典文献以丰富各学科需求(为避免初学者疲于奔命,每个方向只推荐几篇经典文献)。1. 中文综述(了解概念-入门篇)a) 个性化推荐系统的研究进展b) 个性化推荐系统评价方法综述2. 英文综述(了解概念-进阶篇)a) 2004ACMTo...原创 2013-04-20 14:38:07 · 186 阅读 · 0 评论