NLP学习之随笔(5)

上篇讲到,一般的one-hot编码,在一定程度上是没有考虑语义的。这样就无法求得语义相似度。所以我们采用分布式词向量来表示单词。

但是这个分布式词向量我们怎么得到呢?

 

一般通过一些深度学习的模型来训练得到。

比如Skip-gram,glove,gensim,cbow等。

 

计算词向量之间的相似度。

我们: [0.1, 0.2, 0.4, 0.2]
爬山: [0.2, 0.3, 0.7, 0.1]
运动: [0.2, 0.3, 0.6, 0.2]
昨天: [0.5, 0.9, 0.1, 0.3]

每个向量我们可以认为是代表的是单词的意思。

也可以通过词向量来计算相似词。

man------>woman

那么boy---->girl。

 

 

 

意思相近的词,或者词性相近的词,距离会缩短,而词性或者意思不相近的词,之间的距离会比较大。

这一定程度上代表了词意。

 

以上是词向量的表示,那么我们在已知词向量的情况下,怎么表达句子的向量呢?

最简单的就是平均法。

我们[0.1,0.2,0.1,0.3]

去[0.3,0.2,0.15,0.2]

运动[0.2,0.15,0.4,0.7]

 

最简单的就是平均法则,就是求句子中所有词向量的平均值。

我们 去  运动 的句子向量为:[0.1+0.3+0.2,0.2+0.2+0.15 ,0.1+0.15+0.4 ,0.3+0.2+0.7]/3

 = [0.2,0.18,0.22,0.4]

 

除了average方法外,我们还可以用lstm/rnn解决。

 

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值