2016年06月__Kevin_Duan_

12月 11月 10月 09月 08月 07月 06月 05月 04月 03月 02月 01月

原创 Word2Vec学习笔记（五）——Negative Sampling 模型(续)

本来这部分内容不多，是想写在negative sampling 中和cbow一起的，但是写了后不小心按了删除键，浏览器直接回退，找不到了，所以重新写新的，以免出现上述情况(接上)三、Negative Sampling 模型——Skip-gram 这部分内容并不多，与cbow相比，只是目标函数有所变化，推导过程这里就略过。总的来说，就是将目标函数取最大似然，然后利用SGD方法求出词向量和最优参数

2016-06-21 15:43:00 3645 2

原创 Word2Vec学习笔记（四）——Negative Sampling 模型

前面讲了Hierarchical softmax 模型，现在来说说Negative Sampling 模型的CBOW和Skip-gram的原理。它相对于Hierarchical softmax 模型来说，不再采用huffman树，这样可以大幅提高性能。一、Negative Sampling在负采样中，对于给定的词ww,如何生成它的负采样集合NEC(w)NEC(w)呢？已知一个词ww,它的上下

2016-06-20 17:27:53 13976 2

原创最优化学习笔记(五)——牛顿法（多维数据）

在最优化学习系列中，第一次就说的是牛顿法，但是那是在一维搜索上的，它其实就是将函数ff在xx处利用泰勒公式展开，得到它的近似函数，进而求解最小值。本节内容主要说明牛顿法在多维数据上的迭代公式。最优化学习笔记中讲到的最速下降法是一种速度比较快的优化方法，但是最速下降法只用到了函数的一阶导数，这种方法并不总是最高效的。而这里说的牛顿法用到了二阶导数，它的效率可能比最速下降法更优。当目标函数f

2016-06-19 21:34:24 9849

原创 Word2Vec学习笔记（三）续

三、（续）Skip-gram模型介绍 Skip-gram模型并不是和CBOW模型相反的，它们的目的都是计算出词的向量，只不过在作者的论文中给出的图看样子是反的而已。Skip-gram模型是用每个当前词去预测一定范围内除当前词之外前后的词。同样的，此模型也是输出一颗huffman树，如下图所示：此图也借用下图借用 http://blog.csdn.net/itplus/article/det

2016-06-15 14:21:41 861

原创 Word2Vec学习笔记（三）

三、Hierarchical Softmax模型3.1 词向量词向量目前常用的有2种表示方法，One-hot representation 和 distributed representation. 词向量，顾名思义就是将一个词表示为向量的形式，一个词，怎么可以将其表现为向量呢？最简单的就是One-hot representation，它是以词典V中的词的个数作为向量的维度，按照字典序或某种

2016-06-13 16:44:51 1464

原创 Word2Vec学习笔记(二)

二、语言模型语言模型可以分为文法型模型和统计语言模型。在实际应用中语言识别、手写体文字识别、机器翻译、键盘输入、信息检索等研究领域都用到了语言模型。文法型语言模型是人工编制的语言学文法，文法规则来源于语言学家掌握的语言学知识和领域知识，但这种语言模型不能处理大规模真实文本。因此，统计语言模型出现了，并且得到了广泛的应用，统计语言模型是基于概率的，包括了N元文法模型（N-gram Model）

2016-06-12 14:20:21 854

原创 Word2Vec学习笔记(一)

目录Word2Vec基本数学内容语言模型Hierarchical Softmax 模型Negative Sampling 模型一、Word2Vec基本数学内容1. Sigmod 函数&absp;&absp;&absp;&absp;Sigmod函数通常在二分类中应用。它将样本映射后投影在[0, 1]范围内，对应样本所属的类的概率。函数表达式如下所示： f(x)=11+e−xf(x) =

2016-06-12 11:39:57 947

原创机器学习笔记（十）——Logistic Function AND Softmax Function

一、说明在逻辑回归和一些机器学习算法中， Logistic函数和Softmax函数是常用到的，今天就先讨论下这两个函数。二、Logistic Function Logistic function一般用于二分类问题，它的函数定义如下： f(x)=11+e−x(1)f(x) = \frac{1}{1+e^{-x}} (1) 它的图像如下：由于logistic

2016-06-03 17:11:21 2920