glove中文词向量_GloVe

做自然语言处理的时候很多时候会用的Word Embedding,训练词向量的方法主要有两条路:

  • 一个是利用了全局特征的矩阵分解方法。例如基于SVD的LSA算法,该方法对term-document矩阵(矩阵的每个元素为tf-idf)进行奇异值分解,从而得到term的向量表示和document的向量表示。此处使用的tf-idf主要还是term的全局统计特征。
  • 另一个方法是利用局部上下文的方法。例如word2vec算法,该算法可以分为skip-gram 和 continuous bag-of-words(CBOW)两类,但都是基于局部滑动窗口计算的。

GloVe模型就是将这两中特征合并到一起的,即使用了语料库的全局统计特征,也使用了局部的上下文特征。为了做到这一点GloVe模型引入了Co-occurrence Probabilities Matrix。

  • 模型目标:进行词的向量化表示,使得向量之间尽可能多地蕴含语义和语法的信息。
  • 输入:语料库
  • 输出:词向量
  • 方法概述:首先基于语料库构建词的共现矩阵,然后基于共现矩阵和GloVe模型学习词向量。

共现概率矩阵(Co-occurrence Probabilities Matrix)

共现矩阵

的元素
是语料库中出现在word
上下文中word
的次数;

是出现在word
上下文中所有的word的总次数;

是word
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值
>