05[NLP训练营]词向量

Distributed Representation

在这里插入图片描述
分布式表示法不依赖于词典,向量里面都是非零的数据,解决了one-hot向量表示的稀疏性和向量长度过大的问题。one-hot向量维度要和词典一样,而分布式表示法维度通常小于300。
先来看看上面的分布式表示法再来计算相似度。
欧式距离:
在这里插入图片描述
因此可以得到结论是:
sim(运动,爬山)>sim(我们,爬山)
这个是符合我们的预期的。
我们把这种分布式表示方法称为词向量(word vector),当然词向量有很多种表示方式,分布式表示是其中一种。
思考:
Q:100维的One-Hot 表示法最多可以表达多少个不同的单词?
答:100的阶乘。
Q:100维的分布式表示法最多可以表达多少个不同的单词?
答:正无穷多个。
了解完概率之后,下面来看看怎么学习每一个单词的分布式表示(词向量)。

Learn Word Embeddings

输入:string,当有多个文章或者句子,可以把他们直接做拼接,连成长字符串。长度一般在 1 0 9 ∼ 1 0 10 10^9\sim10^{10} 1091010左右。
然后丢到模型里面,常用的词向量训练模型可以有:
在这里插入图片描述
MF是矩阵分解,最后那个是高斯嵌入?
最后是生成分布表示的函数,写做: d i m / D dim/D dim/D,其中dim代表训练出来的词向量的维度,可以是100/200/300等,相当于超参数。其他的参数不同的模型又有所不同,具体在学习每个模型的时候再讲解。
由于输入的数据比较大,通常我们都是用大公司训练好的结果。我们只需要输入词语(key value)然后得到词向量结果

词向量可视化

这个很多论文里面有,随便贴一点
在这里插入图片描述
在这里插入图片描述

From Word Embedding to Sentence Embedding

有很多种方法,这里讲一种平均的方法。

平均法 average

在这里插入图片描述
以上计算结果就是:我们去运动这个句子的句向量。

LSTM/RNN(后面介绍)

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

oldmao_2000

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值