《GloVe: Global Vectors for Word Representation》 笔记1

《GloVe: Global Vectors for Word Representation》 笔记1

motivation

在此论文之前学习单词向量表示的方式主要有两种,一种是 基于计数的全局矩阵分解(global matrix factorization methods) ,一种是局部上下文窗口(local context window methods),但是这两种方法都有一定有缺点

  1. 基于计数的全局矩阵分解(global matrix factorization methods) ,比如LSA(latent semantic analysis)
    • 优点:可以捕获单词的之间的相似性
    • 缺点:在词类比任务上表现不行(论文作者认为是因为该方法找到的是一个次优的词向量空间)
  2. 局部上下文窗口(local context window methods) 比如 skip-gram、CBOW、ivLBL、vLBL这些模型
    • 优点:在词类比任务上表现不错
    • 缺点:没有利用全局共现计数的统计信息。

基于以上认识,作者提出了一个利用全局统计数据的模型 GloVe,Global Vectors。

模型推出

作者举了个例子,如下图

image-20190823183451578

作者用图中的例子说明 概率的比值( P ( k ∣ i c e ) P ( k ∣ s t e a m ) \frac{P(k|ice)}{P(k|steam)} P(ksteam)P(kice)),比概率( P ( k ∣ i c e ) , P ( k ∣ s t e a m ) P(k|ice),P(k|steam) P(kice),P(ksteam))更能揭示单词之间的关系,比如ice 和solid共现的概率较高,steam和solid的共现概率较低,则 P ( k ∣ i c e ) P ( k ∣ s t e a m ) \frac{P(k|ice)}{P(k|steam)} P(ksteam)P(kice) 的值大于1;ice和gas的共现概率较低,steam和gas的共现概率较高, P (

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值