word2vec——高效word特征求取

最新推荐文章于 2024-04-21 17:00:41 发布

Rachel-Zhang

最新推荐文章于 2024-04-21 17:00:41 发布

阅读量3.6w

点赞数 6

分类专栏： Machine Learning 文章标签： word2vec 语言模型特征提取

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/abcjennifer/article/details/46397829

版权

继上次分享了经典统计语言模型，最近公众号中有很多做NLP朋友问到了关于word2vec的相关内容，本文就在这里整理一下做以分享。本文分为

概括word2vec
相关工作
模型结构
Count-based方法 vs. Directly predict

几部分，暂时没有加实验章节，但其实感觉word2vec一文中实验还是做了很多工作的，希望大家有空最好还是看一下~

概括word2vec

要解决的问题：在神经网络中学习将word映射成连续（高维）向量，其实就是个词语特征求取。

特点：
1. 不同于之前的计算cooccurrence次数方法，减少计算量
2. 高效
3. 可以轻松将一个新句子/新词加入语料库

主要思想：神经网络语言模型可以用两步进行训练：1. 简单模型求取word vector; 在求取特征向量时，预测每个词周围的词作为cost 2. 在word vector之上搭建N-gram NNLM，以输出词语的概率为输出进行训练。

相关工作

在传统求取word的空间向量表征时， LSA 将词和文档映射到潜在语义空间，从而去除了原始向量空间中的一些“噪音”，但它无法保存词与词之间的linear regularities； LDA 是一个三层贝叶斯概率模型，包含词、主题和文档三层结构。文档到主题服从Dirichlet分布，主题到词服从多项式分布，但是只要训练数据大了，计算量就一下飚了。

基于神经网络的词语向量表征方法在[Y. Bengio, R. Ducharme, P. Vincent. A neural probabilistic language model, JMLR 2003]中就有提出，名为NNLM，它是一个前向网络，同时学习词语表征和一个统计语言模型（后面具体讲）。

在Mikolov的硕士论文[1]和他在ICASSP 2009上发表的文章[2]中，用一个单隐层网络训练词语表征，然后将这个表征作为NNLM的输入进行训练。 Word2vec是训练词语表征工作的一个拓展。

模型结构

首先回顾NNLM，RNNLM，然后来看Word2Vec中提出的网络——CBOW，skip-gram Model。

1 . NNLM[3]

NNLM的目标是在一个NN里，求第t个词的概率，即

NNLM_PROB

其中f是这个神经网络, 包括 input，projection， hidden和output。将其分解为两个映射：C和g，C是word到word vector的特征映射(通过一个|V|*D的映射矩阵实现)，也称作look-up table， g是以word特征为输入，输出|V|个词语概率的映射：

这里写图片描述

如下图所示：
输入： n个之前的word（其实是他们的在词库V中的index）
映射：通过|V|*D的矩阵C映射到D维
隐层：映射层连接大小为H的隐层
输出：输出层大小为|V|，表示|V|个词语的概率

NNLM

用parameter个数度量网络复杂度，则这个网络的复杂度为：

O=N∗D+N∗D∗H+H∗V $O = N*D + N*D*H + H*V$

其中复杂度最高的部分为H*V, 但通常可以通过hierarchical softmax或binary化词库编码将|V|降至

最低0.47元/天解锁文章

关注

6
点赞
踩
33

收藏

觉得还不错? 一键收藏
6
评论
word2vec——高效word特征求取

继上次分享了经典统计语言模型，最近公众号中有很多做NLP朋友问到了关于word2vec的相关内容，本文就在这里整理一下做以分享。本文分为概括word2vec 相关工作模型结构 Count-based方法 vs. Directly predict几部分，暂时没有加实验章节，但其实感觉word2vec一文中实验还是做了很多工作的，希望大家有空最好还是看一下。
复制链接

扫一扫

专栏目录

Rachel-Zhang

CSDN认证博客专家 CSDN认证企业博客

码龄15年

472: 原创

7379: 周排名

107万+: 总排名

1135万+: 访问

: 等级

5万+: 积分

3万+: 粉丝

5438: 获赞

4563: 评论

6958: 收藏

私信

关注

热门文章

分类专栏

ACM 147篇
杂感 38篇
Compression 16篇
C/C++ 133篇
Computer System 31篇
Data Mining 26篇
Linux & MAC 20篇
Computer Vision 101篇
Machine Learning 49篇
MFC 42篇
MATLAB 16篇
C# 33篇
ASP.NET 8篇
Python 25篇
Computer Graphics 2篇
DIV+CSS 2篇
DataBase 12篇
Java 3篇
English 2篇
Data Structure 75篇
C/C 4篇
php 2篇
shell 3篇
lua
swig 1篇
NLP 1篇

最新评论

Robust PCA 学习笔记
秋意思故人: 现在是VIP好花钱看呜呜呜
Robust PCA 学习笔记
秋意思故人: 现在是VIP好花钱看呜呜呜
SIFT特征提取-应用篇
chenpeng0412: 不是吧，刚买的包不会用了想来看看文章的变成会员文章了
SIFT特征提取分析
爱摸鱼的猫毛: 讲的不错
SIFT特征提取分析
麦田里的捡穗狗: 极值点是所有组里面的所有DOG尺度空间上的极值点吗，只写了极值点怎么求，没写极值点的范围是什么，高斯金字塔下采样那么多组，每一组都有很多层，就算是相邻两层做差也会产生若干个DOG，那么对于同一个大小的局部区域肯定都会产生极值点，是所有的高斯金字塔包括它下采样的那些组都要求极值点最后一并进行描述符生成操作，还是选择所有下采样组的不同层当中的最大极值点，这才是编程实现的关键，但恰恰被忽略

大家在看

最新文章

目录

评论 6

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。