glove中文词向量_Summary系列glove模型解读

Glove模型结合了矩阵分解的全局统计信息和词向量模型的局部上下文信息,旨在更好地捕捉单词的语义。通过公式的推导,展示了如何从共现矩阵中学习词向量,并与skip-gram和CBOW模型进行了对比。实验结果显示,Glove在word analogy、word similarity和NER任务上表现出色。
摘要由CSDN通过智能技术生成

48fd02a0e183e978a8fc734fb2a184ad.png

一、Glove模型简介

语义文本向量表示可以应用在信息抽取,文档分类,问答系统,NER(Named Entity Recognition)和语义解析等领域中,大都需要计算单词或者文本之间的距离或者相似度,因此,能够表达语义的文本的向量表示非常重要。

单词的语义向量生成主要有两种方式:(1)LSA(term-document)、HAL(term-term)等矩阵分解方法利用全局统计信息生成词向量;(2)skip-gram、CBOW等词向量利用语言模型的局部信息生成词向量,在词类比( king -queen = man-woman)方面具有独特优势。

作者的想法是将以上两种方式的优点结合,提出了全局对数双线性回归模型。该模型采用LSA类似想法利用单词与单词的共现矩阵获取全局统计信息,但只使用非零数据;另一方面采用和skip和cbow一样的词向量方式进行训练

二、相关工作

1、矩阵分解方法(全局信息)

LSA(term-document)、HAL(term-term)。

HAL方法的主要缺点是最常出现的单词在相似性度量中占据了不合理的分量,比如与the、and协同出现的单词,其相似性通常会比较高。论文中提到的解决方法有 positive pointwise mu-tual information (PPMI)和 Hellinger PCA (HPCA) 。

2、词向量方法(局部信息)

Mikolov在2013年提出的skip-gram、CBOW方法采用语言模型,依据一个局部窗口中的单词都是相关的这个思想来训练词向量,在词类比任务上具有非常优秀的表现。这种方法没有使用全局统计信息,比如单词A和单词B经常在一起出现,那么就应该给予更大的权重,而该模型则是对所有的训练语料都给予相同的权重。

三、Glove建模过程

1、公式的推理过程。

定义好相关符号:

代表单词间协同出现次数(word-word co-occurrence counts )的矩阵。

表示单词
在单词
上下文环境中出现的次数。

表示所有在单词
上下文环境中出现单词的次数之和。

表示单词
在单词
上下文中出现的概率。

对于冰(ice)与水蒸汽(steam),作者希望训练得到的词向量具有如下特性:

(1)与冰具有相似属性单词,如固体(solid),要求

值很大

(2)与水蒸气具有相似属性单词,如固体(solid),要求

值很小;

&

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值
>