皮果提-CSDN博客

原创部分博文导航

突然意识到，进到博客后，我的博文在主页上是按照发表时间的顺序展示的，各种类型的文章混合在一起，实在不便于查阅，虽然通过分章分类也可进行一定的区分，但分类多了也比较麻烦。因此，为方便自己查阅，同时也为方便读者快速预览本博客的内容，我打算在这里为本博客的一些主要博文搭建一个目录结构，算是读者导航吧。一、数据挖掘&机器学习Sparse Filtering 学习笔记（一）网络结构与

2014-03-24 08:05:41 13703 3

原创什么是社区发现?

如果你仔细观察，你会发现，我们的生活中存在着各种各样的网络，如科研合作网络、演员合作网络、城市交通网络、电力网、以及像 QQ、微博、微信这样的社交网络。这些网络有什么特点呢？我们以大家最熟悉的社交网络来看看。

2014-11-21 14:57:43 35005 10

原创 Factorization Machines 学习笔记（四）学习算法

最近学习了一种叫做 Factorization Machines（简称 FM）的通用算法，它可对任意的实值向量进行预测。其主要优点包括: 1) 可用于高度稀疏数据场景; 2) 具有线性的计算复杂度。本文将对 FM 框架进行简单介绍，并对其训练算法 — 随机梯度下降（SGD）法和交替最小二乘（ALS）法进行详细推导。

2014-10-28 10:22:34 36133 2

原创 Factorization Machines 学习笔记（二）模型方程

最近学习了一种叫做 Factorization Machines（简称 FM）的通用算法，它可对任意的实值向量进行预测。其主要优点包括: 1) 可用于高度稀疏数据场景; 2) 具有线性的计算复杂度。本文将对 FM 框架进行简单介绍，并对其训练算法 — 随机梯度下降（SGD）法和交替最小二乘（ALS）法进行详细推导。

2014-10-28 10:22:16 21892 7

原创 Factorization Machines 学习笔记（三）回归和分类

最近学习了一种叫做 Factorization Machines（简称 FM）的通用算法，它可对任意的实值向量进行预测。其主要优点包括: 1) 可用于高度稀疏数据场景; 2) 具有线性的计算复杂度。本文将对 FM 框架进行简单介绍，并对其训练算法 — 随机梯度下降（SGD）法和交替最小二乘（ALS）法进行详细推导。

2014-10-28 10:22:16 13308

原创 Factorization Machines 学习笔记（一）预测任务

最近学习了一种叫做 Factorization Machines（简称 FM）的通用算法，它可对任意的实值向量进行预测。其主要优点包括: 1) 可用于高度稀疏数据场景; 2) 具有线性的计算复杂度。本文将对 FM 框架进行简单介绍，并对其训练算法 — 随机梯度下降（SGD）法和交替最小二乘法（ALS）法进行详细推导。

2014-10-28 10:21:55 31046

今年 6 月份，Alex Rodriguez 和 Alessandro Laio 在 Science 上发表了一篇名为《Clustering by fast search and find of density peaks》的文章，为聚类算法的设计提供了一种新的思路。虽然文章出来后遭到了众多读者的质疑，但整体而言，新聚类算法的基本思想很新颖，且简单明快，值得学习。这个新聚类算法的核心思想在于对聚类中心的刻画上，本文将对该算法的原理进行详细介绍，并对其中的若干细节展开讨论。

2014-08-29 17:39:08 72994 59

原创 word2vec 中的数学原理详解（六）若干源码细节

word2vec 是 Google 于 2013 年开源推出的一个用于获取 word vector 的工具包，它简单、高效，因此引起了很多人的关注。由于 word2vec 的作者 Tomas Mikolov 在两篇相关的论文 [3,4] 中并没有谈及太多算法细节，因而在一定程度上增加了这个工具包的神秘感。一些按捺不住的人于是选择了通过解剖源代码的方式来一窥究竟，出于好奇，我也成为了他们中的一员。读完代码后，觉得收获颇多，整理成文，给有需要的朋友参考。

2014-07-20 23:51:59 41012 34

原创 word2vec 中的数学原理详解（五）基于 Negative Sampling 的模型

word2vec 是 Google 于 2013 年开源推出的一个用于获取 word vector 的工具包，它简单、高效，因此引起了很多人的关注。由于 word2vec 的作者 Tomas Mikolov 在两篇相关的论文 [3,4] 中并没有谈及太多算法细节，因而在一定程度上增加了这个工具包的神秘感。一些按捺不住的人于是选择了通过解剖源代码的方式来一窥究竟，出于好奇，我也成为了他们中的一员。读完代码后，觉得收获颇多，整理成文，给有需要的朋友参考。

2014-07-20 23:44:50 107894 36

原创 word2vec 中的数学原理详解（四）基于 Hierarchical Softmax 的模型

word2vec 是 Google 于 2013 年开源推出的一个用于获取 word vector 的工具包，它简单、高效，因此引起了很多人的关注。由于 word2vec 的作者 Tomas Mikolov 在两篇相关的论文 [3,4] 中并没有谈及太多算法细节，因而在一定程度上增加了这个工具包的神秘感。一些按捺不住的人于是选择了通过解剖源代码的方式来一窥究竟，出于好奇，我也成为了他们中的一员。读完代码后，觉得收获颇多，整理成文，给有需要的朋友参考。

2014-07-19 22:53:39 160876 123

原创 word2vec 中的数学原理详解（三）背景知识

word2vec 是 Google 于 2013 年开源推出的一个用于获取 word vector 的工具包，它简单、高效，因此引起了很多人的关注。由于 word2vec 的作者 Tomas Mikolov 在两篇相关的论文 [3,4] 中并没有谈及太多算法细节，因而在一定程度上增加了这个工具包的神秘感。一些按捺不住的人于是选择了通过解剖源代码的方式来一窥究竟，出于好奇，我也成为了他们中的一员。读完代码后，觉得收获颇多，整理成文，给有需要的朋友参考。

2014-07-19 22:49:37 107726 79

原创 word2vec 中的数学原理详解（二）预备知识

word2vec 是 Google 于 2013 年开源推出的一个用于获取 word vector 的工具包，它简单、高效，因此引起了很多人的关注。由于 word2vec 的作者 Tomas Mikolov 在两篇相关的论文 [3,4] 中并没有谈及太多算法细节，因而在一定程度上增加了这个工具包的神秘感。一些按捺不住的人于是选择了通过解剖源代码的方式来一窥究竟，出于好奇，我也成为了他们中的一员。读完代码后，觉得收获颇多，整理成文，给有需要的朋友参考。

2014-07-19 22:46:40 103255 4

原创 word2vec 中的数学原理详解（一）目录和前言

word2vec 是 Google 于 2013 年开源推出的一个用于获取 word vector 的工具包，它简单、高效，因此引起了很多人的关注。由于 word2vec 的作者 Tomas Mikolov 在两篇相关的论文 [3,4] 中并没有谈及太多算法细节，因而在一定程度上增加了这个工具包的神秘感。一些按捺不住的人于是选择了通过解剖源代码的方式来一窥究竟，出于好奇，我也成为了他们中的一员。读完代码后，觉得收获颇多，整理成文，给有需要的朋友参考。

2014-07-19 22:42:50 264471 315

原创一种并行随机梯度下降法

Martin A. Zinkevich 等人（Yahoo！Lab）合作的论文 Parallelized Stochastic Gradient Descent 中给出了一种适合于 MapReduce 的并行随机梯度下降法，并给出了相应的收敛性分析。这里忽略理论部分，根据自己的理解给出文中所提并行随机梯度下降法的描述。

2014-06-23 13:53:56 10924 1

原创 DistBelief 框架下的并行随机梯度下降法 - Downpour SGD

本文是读完 Jeffrey Dean, Greg S. Corrado 等人的文章 Large Scale Distributed Deep Networks (2012) 后的一则读书笔记，重点介绍在 Google 的软件框架 DistBelief 下设计的一种用来训练大规模深度神经网络的随机梯度下降法 — Downpour SGD，该方法通过分布式地部署多个模型副本和一个“参数服务器”，同时实现了模型并行和数据并行，且对机器失效问题具有很好的容错性。结合 Adagrad 自适应学习率使用，对非凸优化问题

2014-06-17 22:39:45 18368 5

原创一种利用 Cumulative Penalty 训练 L1 正则 Log-linear 模型的随机梯度下降法

Log-Linear 模型（也叫做最大熵模型）是 NLP 领域中使用最为广泛的模型之一，其训练常采用最大似然准则，且为防止过拟合，往往在目标函数中加入（可以产生稀疏性的） L1 正则。但对于这种带 L1 正则的最大熵模型，直接采用标准的随机梯度下降法（SGD）会出现效率不高和难以真正产生稀疏性等问题。本文为阅读论文 Stochastic Gradient Descent Training for L1-regularized Log-linear Models with Cumulative Penalty

2014-06-11 14:06:14 4855

原创一种适合于大数据的并行坐标下降法

在机器学习中，模型的训练是一个很重要的过程，它通常是对一个目标函数进行优化，从而获取模型的参数，比较常见的优化算法包括梯度下降法、牛顿法与拟牛顿法等。但在大数据的背景下，尤其对于并行实现来说，优化算法通常是越简单越好，如坐标下降法（CD）和随机梯度下降法（SCG）就比较受欢迎。本文是阅读完论文 Distributed Coordinate Descent Method for Learning with Big Data 的一则笔记，主要介绍算法 Hydra （一种分布式坐标下降法）的算法框架、收敛性理论、

2014-06-03 23:43:00 7214