- 博客(118)
- 资源 (4)
- 收藏
- 关注
原创 部分博文导航
突然意识到,进到博客后,我的博文在主页上是按照发表时间的顺序展示的,各种类型的文章混合在一起,实在不便于查阅,虽然通过分章分类也可进行一定的区分,但分类多了也比较麻烦。因此,为方便自己查阅,同时也为方便读者快速预览本博客的内容,我打算在这里为本博客的一些主要博文搭建一个目录结构,算是读者导航吧。一、数据挖掘&机器学习Sparse Filtering 学习笔记(一)网络结构与
2014-03-24 08:05:41 13601 5
原创 什么是社区发现?
如果你仔细观察,你会发现,我们的生活中存在着各种各样的网络,如科研合作网络、演员合作网络、城市交通网络、电力网、以及像 QQ、微博、微信这样的社交网络。这些网络有什么特点呢?我们以大家最熟悉的社交网络来看看。
2014-11-21 14:57:43 34211 10
原创 Factorization Machines 学习笔记(四)学习算法
最近学习了一种叫做 Factorization Machines(简称 FM)的通用算法,它可对任意的实值向量进行预测。其主要优点包括: 1) 可用于高度稀疏数据场景; 2) 具有线性的计算复杂度。本文将对 FM 框架进行简单介绍,并对其训练算法 — 随机梯度下降(SGD)法和交替最小二乘(ALS)法进行详细推导。
2014-10-28 10:22:34 36030 9
原创 Factorization Machines 学习笔记(二)模型方程
最近学习了一种叫做 Factorization Machines(简称 FM)的通用算法,它可对任意的实值向量进行预测。其主要优点包括: 1) 可用于高度稀疏数据场景; 2) 具有线性的计算复杂度。本文将对 FM 框架进行简单介绍,并对其训练算法 — 随机梯度下降(SGD)法和交替最小二乘(ALS)法进行详细推导。
2014-10-28 10:22:16 21701 7
原创 Factorization Machines 学习笔记(三)回归和分类
最近学习了一种叫做 Factorization Machines(简称 FM)的通用算法,它可对任意的实值向量进行预测。其主要优点包括: 1) 可用于高度稀疏数据场景; 2) 具有线性的计算复杂度。本文将对 FM 框架进行简单介绍,并对其训练算法 — 随机梯度下降(SGD)法和交替最小二乘(ALS)法进行详细推导。
2014-10-28 10:22:16 13217 1
原创 Factorization Machines 学习笔记(一)预测任务
最近学习了一种叫做 Factorization Machines(简称 FM)的通用算法,它可对任意的实值向量进行预测。其主要优点包括: 1) 可用于高度稀疏数据场景; 2) 具有线性的计算复杂度。本文将对 FM 框架进行简单介绍,并对其训练算法 — 随机梯度下降(SGD) 法和交替最小二乘法(ALS)法进行详细推导。
2014-10-28 10:21:55 30892 2
原创 发表在 Science 上的一种新聚类算法
今年 6 月份,Alex Rodriguez 和 Alessandro Laio 在 Science 上发表了一篇名为《Clustering by fast search and find of density peaks》的文章,为聚类算法的设计提供了一种新的思路。虽然文章出来后遭到了众多读者的质疑,但整体而言,新聚类算法的基本思想很新颖,且简单明快,值得学习。这个新聚类算法的核心思想在于对聚类中心的刻画上,本文将对该算法的原理进行详细介绍,并对其中的若干细节展开讨论。
2014-08-29 17:39:08 72582 59
原创 word2vec 中的数学原理详解(六)若干源码细节
word2vec 是 Google 于 2013 年开源推出的一个用于获取 word vector 的工具包,它简单、高效,因此引起了很多人的关注。由于 word2vec 的作者 Tomas Mikolov 在两篇相关的论文 [3,4] 中并没有谈及太多算法细节,因而在一定程度上增加了这个工具包的神秘感。一些按捺不住的人于是选择了通过解剖源代码的方式来一窥究竟,出于好奇,我也成为了他们中的一员。读完代码后,觉得收获颇多,整理成文,给有需要的朋友参考。
2014-07-20 23:51:59 40835 34
原创 word2vec 中的数学原理详解(五)基于 Negative Sampling 的模型
word2vec 是 Google 于 2013 年开源推出的一个用于获取 word vector 的工具包,它简单、高效,因此引起了很多人的关注。由于 word2vec 的作者 Tomas Mikolov 在两篇相关的论文 [3,4] 中并没有谈及太多算法细节,因而在一定程度上增加了这个工具包的神秘感。一些按捺不住的人于是选择了通过解剖源代码的方式来一窥究竟,出于好奇,我也成为了他们中的一员。读完代码后,觉得收获颇多,整理成文,给有需要的朋友参考。
2014-07-20 23:44:50 107453 36
原创 word2vec 中的数学原理详解(四)基于 Hierarchical Softmax 的模型
word2vec 是 Google 于 2013 年开源推出的一个用于获取 word vector 的工具包,它简单、高效,因此引起了很多人的关注。由于 word2vec 的作者 Tomas Mikolov 在两篇相关的论文 [3,4] 中并没有谈及太多算法细节,因而在一定程度上增加了这个工具包的神秘感。一些按捺不住的人于是选择了通过解剖源代码的方式来一窥究竟,出于好奇,我也成为了他们中的一员。读完代码后,觉得收获颇多,整理成文,给有需要的朋友参考。
2014-07-19 22:53:39 159818 123
原创 word2vec 中的数学原理详解(三)背景知识
word2vec 是 Google 于 2013 年开源推出的一个用于获取 word vector 的工具包,它简单、高效,因此引起了很多人的关注。由于 word2vec 的作者 Tomas Mikolov 在两篇相关的论文 [3,4] 中并没有谈及太多算法细节,因而在一定程度上增加了这个工具包的神秘感。一些按捺不住的人于是选择了通过解剖源代码的方式来一窥究竟,出于好奇,我也成为了他们中的一员。读完代码后,觉得收获颇多,整理成文,给有需要的朋友参考。
2014-07-19 22:49:37 107331 79
原创 word2vec 中的数学原理详解(二)预备知识
word2vec 是 Google 于 2013 年开源推出的一个用于获取 word vector 的工具包,它简单、高效,因此引起了很多人的关注。由于 word2vec 的作者 Tomas Mikolov 在两篇相关的论文 [3,4] 中并没有谈及太多算法细节,因而在一定程度上增加了这个工具包的神秘感。一些按捺不住的人于是选择了通过解剖源代码的方式来一窥究竟,出于好奇,我也成为了他们中的一员。读完代码后,觉得收获颇多,整理成文,给有需要的朋友参考。
2014-07-19 22:46:40 102753 30
原创 word2vec 中的数学原理详解(一)目录和前言
word2vec 是 Google 于 2013 年开源推出的一个用于获取 word vector 的工具包,它简单、高效,因此引起了很多人的关注。由于 word2vec 的作者 Tomas Mikolov 在两篇相关的论文 [3,4] 中并没有谈及太多算法细节,因而在一定程度上增加了这个工具包的神秘感。一些按捺不住的人于是选择了通过解剖源代码的方式来一窥究竟,出于好奇,我也成为了他们中的一员。读完代码后,觉得收获颇多,整理成文,给有需要的朋友参考。
2014-07-19 22:42:50 262893 315
原创 一种并行随机梯度下降法
Martin A. Zinkevich 等人(Yahoo!Lab)合作的论文 Parallelized Stochastic Gradient Descent 中给出了一种适合于 MapReduce 的并行随机梯度下降法,并给出了相应的收敛性分析。这里忽略理论部分,根据自己的理解给出文中所提并行随机梯度下降法的描述。
2014-06-23 13:53:56 10768 2
原创 DistBelief 框架下的并行随机梯度下降法 - Downpour SGD
本文是读完 Jeffrey Dean, Greg S. Corrado 等人的文章 Large Scale Distributed Deep Networks (2012) 后的一则读书笔记,重点介绍在 Google 的软件框架 DistBelief 下设计的一种用来训练大规模深度神经网络的随机梯度下降法 — Downpour SGD,该方法通过分布式地部署多个模型副本和一个“参数服务器”,同时实现了模型并行和数据并行,且对机器失效问题具有很好的容错性。结合 Adagrad 自适应学习率使用,对非凸优化问题
2014-06-17 22:39:45 18217 5
原创 一种利用 Cumulative Penalty 训练 L1 正则 Log-linear 模型的随机梯度下降法
Log-Linear 模型(也叫做最大熵模型)是 NLP 领域中使用最为广泛的模型之一,其训练常采用最大似然准则,且为防止过拟合,往往在目标函数中加入(可以产生稀疏性的) L1 正则。但对于这种带 L1 正则的最大熵模型,直接采用标准的随机梯度下降法(SGD)会出现效率不高和难以真正产生稀疏性等问题。本文为阅读论文 Stochastic Gradient Descent Training for L1-regularized Log-linear Models with Cumulative Penalty
2014-06-11 14:06:14 4798 1
原创 一种适合于大数据的并行坐标下降法
在机器学习中,模型的训练是一个很重要的过程,它通常是对一个目标函数进行优化,从而获取模型的参数,比较常见的优化算法包括梯度下降法、牛顿法与拟牛顿法等。但在大数据的背景下,尤其对于并行实现来说,优化算法通常是越简单越好,如坐标下降法(CD)和随机梯度下降法(SCG)就比较受欢迎。本文是阅读完论文 Distributed Coordinate Descent Method for Learning with Big Data 的一则笔记,主要介绍算法 Hydra (一种分布式坐标下降法)的算法框架、收敛性理论、
2014-06-03 23:43:00 7102
原创 最大熵学习笔记(六)优缺点分析
生活中我们经常听到人们说“不要把鸡蛋放到一个篮子里”,这样可以降低风险。深究一下,这是为什么呢?其实,这里边包含了所谓的最大熵原理(The Maximum Entropy Principle)。本文为一则读书笔记,将对最大熵原理以及由此导出的最大熵模型进行介绍,重点给出其中所涉及数学公式的理解和详细推导。
2014-05-22 08:28:01 13944 5
原创 最大熵学习笔记(五)最优化算法
生活中我们经常听到人们说“不要把鸡蛋放到一个篮子里”,这样可以降低风险。深究一下,这是为什么呢?其实,这里边包含了所谓的最大熵原理(The Maximum Entropy Principle)。本文为一则读书笔记,将对最大熵原理以及由此导出的最大熵模型进行介绍,重点给出其中所涉及数学公式的理解和详细推导。
2014-05-22 08:27:49 17961 8
原创 最大熵学习笔记(四)模型求解
生活中我们经常听到人们说“不要把鸡蛋放到一个篮子里”,这样可以降低风险。深究一下,这是为什么呢?其实,这里边包含了所谓的最大熵原理(The Maximum Entropy Principle)。本文为一则读书笔记,将对最大熵原理以及由此导出的最大熵模型进行介绍,重点给出其中所涉及数学公式的理解和详细推导。
2014-05-22 08:27:39 16924 14
原创 最大熵学习笔记(三)最大熵模型
生活中我们经常听到人们说“不要把鸡蛋放到一个篮子里”,这样可以降低风险。深究一下,这是为什么呢?其实,这里边包含了所谓的最大熵原理(The Maximum Entropy Principle)。本文为一则读书笔记,将对最大熵原理以及由此导出的最大熵模型进行介绍,重点给出其中所涉及数学公式的理解和详细推导。
2014-05-22 08:27:26 41558 10
原创 最大熵学习笔记(二)最大熵原理
生活中我们经常听到人们说“不要把鸡蛋放到一个篮子里”,这样可以降低风险。深究一下,这是为什么呢?其实,这里边包含了所谓的最大熵原理(The Maximum Entropy Principle)。本文为一则读书笔记,将对最大熵原理以及由此导出的最大熵模型进行介绍,重点给出其中所涉及数学公式的理解和详细推导。
2014-05-22 08:27:09 21005 4
原创 最大熵学习笔记(一)预备知识
生活中我们经常听到人们说“不要把鸡蛋放到一个篮子里”,这样可以降低风险。深究一下,这是为什么呢?其实,这里边包含了所谓的最大熵原理(The Maximum Entropy Principle)。本文为一则读书笔记,将对最大熵原理以及由此导出的最大熵模型进行介绍,重点给出其中所涉及数学公式的理解和详细推导。
2014-05-22 08:26:51 22910 6
原创 最大熵学习笔记(零)目录和引言
生活中我们经常听到人们说“不要把鸡蛋放到一个篮子里”,这样可以降低风险。深究一下,这是为什么呢?其实,这里边包含了所谓的最大熵原理(The Maximum Entropy Principle)。本文为一则读书笔记,将对最大熵原理以及由此导出的最大熵模型进行介绍,重点给出其中所涉及数学公式的理解和详细推导。
2014-05-22 08:26:19 14428 3
转载 余凯在清华的讲座笔记
本文来自 Rorschach 的 http://blog.csdn.net/huangbo10/article/details/229440072014.4.4,余凯在清华FIT楼做了“Deep Learning Unfolds the Big Data Era”的讲座。感觉这个讲座还是比较high-level的,毕竟90分钟也很难把这么大的问题讲清楚。
2014-04-08 11:27:29 4932 2
原创 Lagrange插值公式
朋友@耗子突然问起我一个 Lagrange 插值公式的问题,发现几年没碰差不多要忘干净了,于是找了本教科书来翻了翻,顺便把几个要点整理成文,以备日后查阅。作者: peghoty 出处: http://blog.csdn.net/itplus/article/details/22827961欢迎转载/分享, 但请务必声明文章出处.
2014-04-02 22:56:26 5068
原创 自编码器及相关变种算法简介
本文对自编码器(Auto-Encoder)算法及其相关变种算法进行简要介绍,其中包括 Regularized Auto-Encoder、Sparse Auto-Encoder、Denoising Auto-Encoder 和 Contractive Auto-Encoder,重点讨论各算法的基本思想及优化时所需目标函数的构造。
2014-03-31 22:48:51 7331 8
原创 Sparse Filtering 学习笔记(三)目标函数的建立和求解
Sparse Filtering 是一个用于提取特征的无监督学习算法,与通常特征学习算法试图建模训练数据的分布的做法不同,Sparse Filtering 直接对训练数据的特征分布进行分析,在所谓“好特征”的指导下构建目标函数来进行优化,其中只涉及一个可调参数。本文将主要讨论两个问题:(1)什么样的特征是好的特征;(2)如何利用好特征的条件来构造 Sparse Filtering 的目标函数。
2014-03-25 17:19:46 4801
原创 Sparse Filtering 学习笔记(二)好特征的刻画
Sparse Filtering 是一个用于提取特征的无监督学习算法,与通常特征学习算法试图建模训练数据的分布的做法不同,Sparse Filtering 直接对训练数据的特征分布进行分析,在所谓“好特征”的指导下构建目标函数来进行优化,其中只涉及一个可调参数。本文将主要讨论两个问题:(1)什么样的特征是好的特征;(2)如何利用好特征的条件来构造 Sparse Filtering 的目标函数。
2014-03-25 17:19:11 3739
原创 Sparse Filtering 学习笔记(一)网络结构与特征矩阵
Sparse Filtering 是一个用于提取特征的无监督学习算法,与通常特征学习算法试图建模训练数据的分布的做法不同,Sparse Filtering 直接对训练数据的特征分布进行分析,在所谓“好特征”的指导下构建目标函数来进行优化,其中只涉及一个可调参数。本文将主要讨论两个问题:(1)什么样的特征是好的特征;(2)如何利用好特征的条件来构造 Sparse Filtering 的目标函数。
2014-03-25 17:18:32 5887
原创 牛顿法与拟牛顿法学习笔记(五)L-BFGS 算法
机器学习算法中经常碰到非线性优化问题,如 Sparse Filtering 算法,其主要工作在于求解一个非线性极小化问题。在具体实现中,大多调用的是成熟的软件包做支撑,其中最常用的一个算法是 L-BFGS。为了解这个算法的数学机理,这几天做了一些调研,现把学习过程中理解的一些东西整理出来。
2014-03-24 00:53:27 75173 17
原创 牛顿法与拟牛顿法学习笔记(四)BFGS 算法
机器学习算法中经常碰到非线性优化问题,如 Sparse Filtering 算法,其主要工作在于求解一个非线性极小化问题。在具体实现中,大多调用的是成熟的软件包做支撑,其中最常用的一个算法是 L-BFGS。为了解这个算法的数学机理,这几天做了一些调研,现把学习过程中理解的一些东西整理出来。
2014-03-24 00:53:04 76449 20
原创 牛顿法与拟牛顿法学习笔记(三)DFP 算法
机器学习算法中经常碰到非线性优化问题,如 Sparse Filtering 算法,其主要工作在于求解一个非线性极小化问题。在具体实现中,大多调用的是成熟的软件包做支撑,其中最常用的一个算法是 L-BFGS。为了解这个算法的数学机理,这几天做了一些调研,现把学习过程中理解的一些东西整理出来。
2014-03-24 00:52:06 51032 19
原创 牛顿法与拟牛顿法学习笔记(二)拟牛顿条件
机器学习算法中经常碰到非线性优化问题,如 Sparse Filtering 算法,其主要工作在于求解一个非线性极小化问题。在具体实现中,大多调用的是成熟的软件包做支撑,其中最常用的一个算法是 L-BFGS。为了解这个算法的数学机理,这几天做了一些调研,现把学习过程中理解的一些东西整理出来。
2014-03-24 00:51:44 54099 8
原创 牛顿法与拟牛顿法学习笔记(一)牛顿法
机器学习算法中经常碰到非线性优化问题,如 Sparse Filtering 算法,其主要工作在于求解一个非线性极小化问题。在具体实现中,大多调用的是成熟的软件包做支撑,其中最常用的一个算法是 L-BFGS。为了解这个算法的数学机理,这几天做了一些调研,现把学习过程中理解的一些东西整理出来。
2014-03-24 00:51:18 131821 42
原创 TF-IDF 简介
假设我们手头有大量的文档(或网页), 通常我们会比较关心以下几个问题:1. 每一个文档的关键词(或主题词)包括哪些?2. 给定一个(或一组)关键词,与这个(或组)词最相关的文档是哪一个?3. 给定一个文档,哪个(或哪些)文档与它具有最大的相似度呢?回答上述三个问题的关键是:对于一个给定的词和一个给定的文档,定义一个可以用来衡量该词对该文档相关性(或重要性)的指标。那么,如何定义这样的一个指标呢?
2014-03-10 22:58:36 5964
原创 error while loading shared libraries: libICTCLAS50.so
测试汉语分词系统 ICTCLAS,编译链接没问题,运行程序时报错:error while loading shared libraries: libICTCLAS50.so: cannot open shared object file: No such file or directory网上找到的解决方案如下:第一步:在终端输入 locate libICTCLAS50.so确
2014-03-05 10:34:02 2295 1
转载 机器学习是什么?
作者:周志华机器学习现在是一大热门,研究的人特多,越来越多的新人涌进来。不少人其实并没有真正想过,这是不是自己喜欢搞的东西,只不过看见别人都在搞,觉着跟大伙儿走总不会吃亏吧。问题是,真有个“大伙儿”吗?就不会是“两伙儿”、“三伙儿”?如果有“几伙儿”,那到底该跟着“哪伙儿”走呢?很多人可能没有意识到,所谓的machine learning communi
2014-02-25 14:17:13 3061
转载 通过身边小事解释机器学习是什么?
本文来自 丕子 的博客 http://www.zhizhihu.com/html/y2012/4124.html一个给不知道机器学习是什么东西的人讲的一个挺不错的例子,方法。今天从quora上看了一个问题:如何给不是CS的学生,给不知道机器学习和数据挖掘的学生,讲明白什么是机器学习和数据挖掘。其中有个答案很不错,拿买芒果的例子来给大家解释。老师们也应该多用用类似的一些例子,
2014-02-24 16:39:12 3022
原创 受限玻尔兹曼机(RBM)学习笔记(八)RBM 的评估
去年 6 月份写的博文《Yusuke Sugomori 的 C 语言 Deep Learning 程序解读》是囫囵吞枣地读完一个关于 DBN 算法的开源代码后的笔记,当时对其中涉及的算法原理基本不懂。近日再次学习 RBM,觉得有必要将其整理成笔记,算是对那个代码的一个补充。
2014-02-18 14:43:10 22673 9
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人