机器学习
皮果提
这个作者很懒,什么都没留下…
展开
-
Coursera 《机器学习》(Lecture 01)
原创 2013-12-31 23:58:48 · 3953 阅读 · 0 评论 -
Sparse Filtering 学习笔记(二)好特征的刻画
Sparse Filtering 是一个用于提取特征的无监督学习算法,与通常特征学习算法试图建模训练数据的分布的做法不同,Sparse Filtering 直接对训练数据的特征分布进行分析,在所谓“好特征”的指导下构建目标函数来进行优化,其中只涉及一个可调参数。本文将主要讨论两个问题:(1)什么样的特征是好的特征;(2)如何利用好特征的条件来构造 Sparse Filtering 的目标函数。原创 2014-03-25 17:19:11 · 3739 阅读 · 0 评论 -
Sparse Filtering 学习笔记(一)网络结构与特征矩阵
Sparse Filtering 是一个用于提取特征的无监督学习算法,与通常特征学习算法试图建模训练数据的分布的做法不同,Sparse Filtering 直接对训练数据的特征分布进行分析,在所谓“好特征”的指导下构建目标函数来进行优化,其中只涉及一个可调参数。本文将主要讨论两个问题:(1)什么样的特征是好的特征;(2)如何利用好特征的条件来构造 Sparse Filtering 的目标函数。原创 2014-03-25 17:18:32 · 5887 阅读 · 0 评论 -
余凯在清华的讲座笔记
本文来自 Rorschach 的 http://blog.csdn.net/huangbo10/article/details/229440072014.4.4,余凯在清华FIT楼做了“Deep Learning Unfolds the Big Data Era”的讲座。感觉这个讲座还是比较high-level的,毕竟90分钟也很难把这么大的问题讲清楚。转载 2014-04-08 11:27:29 · 4932 阅读 · 2 评论 -
一种适合于大数据的并行坐标下降法
在机器学习中,模型的训练是一个很重要的过程,它通常是对一个目标函数进行优化,从而获取模型的参数,比较常见的优化算法包括梯度下降法、牛顿法与拟牛顿法等。但在大数据的背景下,尤其对于并行实现来说,优化算法通常是越简单越好,如坐标下降法(CD)和随机梯度下降法(SCG)就比较受欢迎。本文是阅读完论文 Distributed Coordinate Descent Method for Learning with Big Data 的一则笔记,主要介绍算法 Hydra (一种分布式坐标下降法)的算法框架、收敛性理论、原创 2014-06-03 23:43:00 · 7102 阅读 · 0 评论 -
DistBelief 框架下的并行随机梯度下降法 - Downpour SGD
本文是读完 Jeffrey Dean, Greg S. Corrado 等人的文章 Large Scale Distributed Deep Networks (2012) 后的一则读书笔记,重点介绍在 Google 的软件框架 DistBelief 下设计的一种用来训练大规模深度神经网络的随机梯度下降法 — Downpour SGD,该方法通过分布式地部署多个模型副本和一个“参数服务器”,同时实现了模型并行和数据并行,且对机器失效问题具有很好的容错性。结合 Adagrad 自适应学习率使用,对非凸优化问题原创 2014-06-17 22:39:45 · 18217 阅读 · 5 评论 -
最大熵学习笔记(一)预备知识
生活中我们经常听到人们说“不要把鸡蛋放到一个篮子里”,这样可以降低风险。深究一下,这是为什么呢?其实,这里边包含了所谓的最大熵原理(The Maximum Entropy Principle)。本文为一则读书笔记,将对最大熵原理以及由此导出的最大熵模型进行介绍,重点给出其中所涉及数学公式的理解和详细推导。原创 2014-05-22 08:26:51 · 22910 阅读 · 6 评论 -
最大熵学习笔记(零)目录和引言
生活中我们经常听到人们说“不要把鸡蛋放到一个篮子里”,这样可以降低风险。深究一下,这是为什么呢?其实,这里边包含了所谓的最大熵原理(The Maximum Entropy Principle)。本文为一则读书笔记,将对最大熵原理以及由此导出的最大熵模型进行介绍,重点给出其中所涉及数学公式的理解和详细推导。原创 2014-05-22 08:26:19 · 14428 阅读 · 3 评论 -
最大熵学习笔记(四)模型求解
生活中我们经常听到人们说“不要把鸡蛋放到一个篮子里”,这样可以降低风险。深究一下,这是为什么呢?其实,这里边包含了所谓的最大熵原理(The Maximum Entropy Principle)。本文为一则读书笔记,将对最大熵原理以及由此导出的最大熵模型进行介绍,重点给出其中所涉及数学公式的理解和详细推导。原创 2014-05-22 08:27:39 · 16924 阅读 · 14 评论 -
最大熵学习笔记(六)优缺点分析
生活中我们经常听到人们说“不要把鸡蛋放到一个篮子里”,这样可以降低风险。深究一下,这是为什么呢?其实,这里边包含了所谓的最大熵原理(The Maximum Entropy Principle)。本文为一则读书笔记,将对最大熵原理以及由此导出的最大熵模型进行介绍,重点给出其中所涉及数学公式的理解和详细推导。原创 2014-05-22 08:28:01 · 13944 阅读 · 5 评论 -
最大熵学习笔记(二)最大熵原理
生活中我们经常听到人们说“不要把鸡蛋放到一个篮子里”,这样可以降低风险。深究一下,这是为什么呢?其实,这里边包含了所谓的最大熵原理(The Maximum Entropy Principle)。本文为一则读书笔记,将对最大熵原理以及由此导出的最大熵模型进行介绍,重点给出其中所涉及数学公式的理解和详细推导。原创 2014-05-22 08:27:09 · 21005 阅读 · 4 评论 -
最大熵学习笔记(三)最大熵模型
生活中我们经常听到人们说“不要把鸡蛋放到一个篮子里”,这样可以降低风险。深究一下,这是为什么呢?其实,这里边包含了所谓的最大熵原理(The Maximum Entropy Principle)。本文为一则读书笔记,将对最大熵原理以及由此导出的最大熵模型进行介绍,重点给出其中所涉及数学公式的理解和详细推导。原创 2014-05-22 08:27:26 · 41558 阅读 · 10 评论 -
一种利用 Cumulative Penalty 训练 L1 正则 Log-linear 模型的随机梯度下降法
Log-Linear 模型(也叫做最大熵模型)是 NLP 领域中使用最为广泛的模型之一,其训练常采用最大似然准则,且为防止过拟合,往往在目标函数中加入(可以产生稀疏性的) L1 正则。但对于这种带 L1 正则的最大熵模型,直接采用标准的随机梯度下降法(SGD)会出现效率不高和难以真正产生稀疏性等问题。本文为阅读论文 Stochastic Gradient Descent Training for L1-regularized Log-linear Models with Cumulative Penalty原创 2014-06-11 14:06:14 · 4798 阅读 · 1 评论 -
Factorization Machines 学习笔记(二)模型方程
最近学习了一种叫做 Factorization Machines(简称 FM)的通用算法,它可对任意的实值向量进行预测。其主要优点包括: 1) 可用于高度稀疏数据场景; 2) 具有线性的计算复杂度。本文将对 FM 框架进行简单介绍,并对其训练算法 — 随机梯度下降(SGD)法和交替最小二乘(ALS)法进行详细推导。原创 2014-10-28 10:22:16 · 21701 阅读 · 7 评论 -
Factorization Machines 学习笔记(四)学习算法
最近学习了一种叫做 Factorization Machines(简称 FM)的通用算法,它可对任意的实值向量进行预测。其主要优点包括: 1) 可用于高度稀疏数据场景; 2) 具有线性的计算复杂度。本文将对 FM 框架进行简单介绍,并对其训练算法 — 随机梯度下降(SGD)法和交替最小二乘(ALS)法进行详细推导。原创 2014-10-28 10:22:34 · 36030 阅读 · 9 评论 -
Factorization Machines 学习笔记(一)预测任务
最近学习了一种叫做 Factorization Machines(简称 FM)的通用算法,它可对任意的实值向量进行预测。其主要优点包括: 1) 可用于高度稀疏数据场景; 2) 具有线性的计算复杂度。本文将对 FM 框架进行简单介绍,并对其训练算法 — 随机梯度下降(SGD) 法和交替最小二乘法(ALS)法进行详细推导。原创 2014-10-28 10:21:55 · 30892 阅读 · 2 评论 -
Factorization Machines 学习笔记(三)回归和分类
最近学习了一种叫做 Factorization Machines(简称 FM)的通用算法,它可对任意的实值向量进行预测。其主要优点包括: 1) 可用于高度稀疏数据场景; 2) 具有线性的计算复杂度。本文将对 FM 框架进行简单介绍,并对其训练算法 — 随机梯度下降(SGD)法和交替最小二乘(ALS)法进行详细推导。原创 2014-10-28 10:22:16 · 13217 阅读 · 1 评论 -
Sparse Filtering 学习笔记(三)目标函数的建立和求解
Sparse Filtering 是一个用于提取特征的无监督学习算法,与通常特征学习算法试图建模训练数据的分布的做法不同,Sparse Filtering 直接对训练数据的特征分布进行分析,在所谓“好特征”的指导下构建目标函数来进行优化,其中只涉及一个可调参数。本文将主要讨论两个问题:(1)什么样的特征是好的特征;(2)如何利用好特征的条件来构造 Sparse Filtering 的目标函数。原创 2014-03-25 17:19:46 · 4801 阅读 · 0 评论 -
受限玻尔兹曼机(RBM)学习笔记(一)预备知识
去年 6 月份写的博文《Yusuke Sugomori 的 C 语言 Deep Learning 程序解读》是囫囵吞枣地读完一个关于 DBN 算法的开源代码后的笔记,当时对其中涉及的算法原理基本不懂。近日再次学习 RBM,觉得有必要将其整理成笔记,算是对那个代码的一个补充。原创 2014-02-13 23:36:26 · 110534 阅读 · 69 评论 -
受限玻尔兹曼机(RBM)学习笔记(六)对比散度算法
去年 6 月份写的博文《Yusuke Sugomori 的 C 语言 Deep Learning 程序解读》是囫囵吞枣地读完一个关于 DBN 算法的开源代码后的笔记,当时对其中涉及的算法原理基本不懂。近日再次学习 RBM,觉得有必要将其整理成笔记,算是对那个代码的一个补充。原创 2014-02-18 14:42:43 · 70981 阅读 · 20 评论 -
Coursera 《机器学习》(Lecture 02)
原创 2013-12-31 23:59:04 · 2063 阅读 · 0 评论 -
Coursera 《机器学习》(Lecture 04)
原创 2014-01-27 23:35:11 · 1376 阅读 · 0 评论 -
Coursera 《机器学习》(Lecture 06)
原创 2014-01-27 23:59:25 · 1188 阅读 · 0 评论 -
Coursera 《机器学习》(Lecture 07)
原创 2014-01-28 00:09:59 · 1372 阅读 · 0 评论 -
Coursera 《机器学习》(Lecture 03)
原创 2013-12-31 23:59:49 · 1609 阅读 · 0 评论 -
Coursera 《机器学习》(Lecture 08)
原创 2014-01-28 08:12:01 · 1373 阅读 · 0 评论 -
Coursera 《机器学习》(Lecture 09)
原创 2014-01-28 08:18:05 · 2430 阅读 · 0 评论 -
机器学习是什么?
作者:周志华机器学习现在是一大热门,研究的人特多,越来越多的新人涌进来。不少人其实并没有真正想过,这是不是自己喜欢搞的东西,只不过看见别人都在搞,觉着跟大伙儿走总不会吃亏吧。问题是,真有个“大伙儿”吗?就不会是“两伙儿”、“三伙儿”?如果有“几伙儿”,那到底该跟着“哪伙儿”走呢?很多人可能没有意识到,所谓的machine learning communi转载 2014-02-25 14:17:13 · 3061 阅读 · 0 评论 -
通过身边小事解释机器学习是什么?
本文来自 丕子 的博客 http://www.zhizhihu.com/html/y2012/4124.html一个给不知道机器学习是什么东西的人讲的一个挺不错的例子,方法。今天从quora上看了一个问题:如何给不是CS的学生,给不知道机器学习和数据挖掘的学生,讲明白什么是机器学习和数据挖掘。其中有个答案很不错,拿买芒果的例子来给大家解释。老师们也应该多用用类似的一些例子,转载 2014-02-24 16:39:12 · 3022 阅读 · 0 评论 -
Coursera 《机器学习》(Lecture 05)
原创 2014-01-27 23:55:02 · 1321 阅读 · 0 评论 -
受限玻尔兹曼机(RBM)学习笔记(七)RBM 训练算法
去年 6 月份写的博文《Yusuke Sugomori 的 C 语言 Deep Learning 程序解读》是囫囵吞枣地读完一个关于 DBN 算法的开源代码后的笔记,当时对其中涉及的算法原理基本不懂。近日再次学习 RBM,觉得有必要将其整理成笔记,算是对那个代码的一个补充。原创 2014-02-18 14:42:57 · 52508 阅读 · 13 评论 -
受限玻尔兹曼机(RBM)学习笔记(二)网络结构
去年 6 月份写的博文《Yusuke Sugomori 的 C 语言 Deep Learning 程序解读》是囫囵吞枣地读完一个关于 DBN 算法的开源代码后的笔记,当时对其中涉及的算法原理基本不懂。近日再次学习 RBM,觉得有必要将其整理成笔记,算是对那个代码的一个补充。原创 2014-02-13 23:36:33 · 54075 阅读 · 6 评论 -
受限玻尔兹曼机(RBM)学习笔记(三)能量函数和概率分布
去年 6 月份写的博文《Yusuke Sugomori 的 C 语言 Deep Learning 程序解读》是囫囵吞枣地读完一个关于 DBN 算法的开源代码后的笔记,当时对其中涉及的算法原理基本不懂。近日再次学习 RBM,觉得有必要将其整理成笔记,算是对那个代码的一个补充。原创 2014-02-13 23:36:41 · 76634 阅读 · 40 评论 -
受限玻尔兹曼机(RBM)学习笔记(四)对数似然函数
去年 6 月份写的博文《Yusuke Sugomori 的 C 语言 Deep Learning 程序解读》是囫囵吞枣地读完一个关于 DBN 算法的开源代码后的笔记,当时对其中涉及的算法原理基本不懂。近日再次学习 RBM,觉得有必要将其整理成笔记,算是对那个代码的一个补充。原创 2014-02-13 23:36:45 · 46252 阅读 · 5 评论 -
受限玻尔兹曼机(RBM)学习笔记(八)RBM 的评估
去年 6 月份写的博文《Yusuke Sugomori 的 C 语言 Deep Learning 程序解读》是囫囵吞枣地读完一个关于 DBN 算法的开源代码后的笔记,当时对其中涉及的算法原理基本不懂。近日再次学习 RBM,觉得有必要将其整理成笔记,算是对那个代码的一个补充。原创 2014-02-18 14:43:10 · 22673 阅读 · 9 评论 -
受限玻尔兹曼机(RBM)学习笔记(五)梯度计算公式
去年 6 月份写的博文《Yusuke Sugomori 的 C 语言 Deep Learning 程序解读》是囫囵吞枣地读完一个关于 DBN 算法的开源代码后的笔记,当时对其中涉及的算法原理基本不懂。近日再次学习 RBM,觉得有必要将其整理成笔记,算是对那个代码的一个补充。原创 2014-02-14 18:14:13 · 60962 阅读 · 28 评论 -
最大熵学习笔记(五)最优化算法
生活中我们经常听到人们说“不要把鸡蛋放到一个篮子里”,这样可以降低风险。深究一下,这是为什么呢?其实,这里边包含了所谓的最大熵原理(The Maximum Entropy Principle)。本文为一则读书笔记,将对最大熵原理以及由此导出的最大熵模型进行介绍,重点给出其中所涉及数学公式的理解和详细推导。原创 2014-05-22 08:27:49 · 17962 阅读 · 8 评论