NLP基础(六):GLOVE和FastText

1.GLOVE

Word2vec只关注局部,没有考虑全文语言特征。因此引出使用全局统计信息的GLOVE(Global Vectors for Word Representation),融入全局的先验统计信息,可以加快模型的训练速度,又可以控制词的相对权重。

现分别计算在ice和steam出现的情况下solid、gas、water、fashion出现的概率,如下表所示

Probability and Ratio k=solid k=gas k=water k=fashion
p(k|ice) 1.9 × 1 0 − 4 1.9 \times10^{-4} 1.9×104 6.6 × 1 0 − 5 6.6 \times10^{-5} 6.6×105 3.0 × 1 0 − 3 3.0 \times10^{-3} 3.0×103 1.7 × 1 0 − 5 1.7 \times10^{-5} 1.7×105
p(k|steam) 2.2 × 1 0 − 5 2.2 \times10^{-5} 2.2×105 7.8 × 1 0 − 4 7.8 \times10^{-4} 7.8×104 2.2 × 1 0 − 3 2.2 \times10^{-3} 2.2×103 1.8 × 1 0 − 5 1.8 \times10^{-5} 1.8×105
p(k|ice)/p(k|steam) 8.9 8.9 8.9 8.5 × 1 0 − 2 8.5 \times10^{-2} 8.5×102 1.36 1.36 1.36 0.96 0.96 0.96

从数据中可看出
1)k=water时,k与单词ice和steam均相关且 p(k|ice)/p(k|steam) 接近1
2)k=solid时,k与单词ice相关但与steam不相关且 p(k|ice)/p(k|steam) 很大
3)k=gas时,k与单词ice不相关但与steam相关且 p(k|ice)/p(k|steam) 很小
4)k=fashion时,k与单词ice和steam均不相关且 p(k|ice)/p(k|steam) 接近1

p(k|i)/p(k|j)的值 单词j,k相关 单词j,k不相关
单词i,k相关 接近1 很大
单词i,k不相关 很小 接近1

假设 X X X为共现词频矩阵 N × N N\times N N×N N N N为词的个数。 x i j x_{ij} xij表示词 i , j i,j i,j在文本中的共现词频。单词k出现在单词i语境中的概率,即条件概率 P i j = x i j x i P_{ij}= \frac {x_{ij}}{x_i} Pij=xi

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值