NLP-*-Glove词向量原理

最新推荐文章于 2021-09-18 10:39:11 发布

Leo蓝色

最新推荐文章于 2021-09-18 10:39:11 发布

阅读量640

点赞数

分类专栏： NLP 文章标签：人工智能自然语言处理

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/u013894072/article/details/106788144

版权

Glove词向量

引入

学习词向量有两种方法：局部和全局

全局的代表有 LSA PLSA等

局部的代表有 Word2Vec

他们都有各自的缺陷，全局的没有利用好词之间的类比信息，局部的方法没有利用词全局的统计信息

Glove词向量即利用了局部信息也利用了全局的统计信息，全名为：Global Vectors for Word Representation Jeffrey

word2vec是常用的开源词向量解决方案，还有一种也比较常用的为Glove，一般都会把他们俩放到一起讨论

Glove

概述

模型目标：进行词的向量化服务，使得向量之间尽可能多的蕴含语义和语法信息
输入：语料库
输出：词向量

共现矩阵

定义：设矩阵为 $X_{i,j}$ 为共现矩阵，K为窗口大小。
含义： $X_{i,j}$ 代表单词 $i$ 在窗口K内与单词 $j$ 同时出现的次数

**示例：**我在青岛栈桥等你，你在青岛栈桥等他。涉及单词:[我，在，青岛，栈桥，等，你，他]，那么构建矩阵为7*7大小，设窗口K=3，则共现矩阵如下

	我	在	青岛	栈桥	等	你	他
我	-	1	1	0	0	0	0
在	1	-	2	2	0	0	0
青岛	1	2	-	2	2	0	0
栈桥	0	2	2	-	2	1	1
等	0	0	2	2	-	1	1
你	0	0	0	1	1	-	0
他	0	0	0	1	1	0	-

那么得到共现矩阵后该怎么得到每个词的词向量呢？

公式

$J=\Sigma_{i,j}^{N}f(X_{i,j})(v_{i}^{T}v_{j}+b_{i}+b_{j}-log(X_{i,j}))^{2}$

其中， $v_{i},v_{j}$ 指的是单词 $i$ 、单词 $j$ 的词向量， $b_{i},b_{j}$ 是两个标量（作者定义的偏差项）， $f$ 是权重函数。 $N$ 是词汇表的大小，共现矩阵维度为 $N * N$

可以看到，Glove没有使用神经网络的方法

定义： $X_{i}=\Sigma_{j=1}^{N}X_{i,j}$ ，即共现矩阵种一个单词行所有列的值相加；条件概率： $P_{i,k}=\frac{X_{i,k}}{X_{i}}$ ，表示单词 $k$ 在行单词 $i$ 的概率； $ration_{i,j,k}=\frac{P_{i,k}}{P_{j,k}}$

最低0.47元/天解锁文章

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
NLP-*-Glove词向量原理

Glove词向量引入学习词向量有两种方法：局部和全局全局的代表有 LSA PLSA等局部的代表有 Word2Vec他们都有各自的缺陷，全局的没有利用好词之间的类比信息，局部的方法没有利用词全局的统计信息Glove词向量即利用了局部信息也利用了全局的统计信息，全名为：Global Vectors for Word Representation Jeffrey原理首先引入词汇的共现矩阵XXX,其中每一个元素XijX_{ij}Xij表示词汇jjj出现在词汇iii的上下文的次数总和，令Xi=ΣkX
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。