NLP(3)词向量

Measure similarity between words

One-hot 和预先相似度无法表示相似

Another Issue: Sparsity
我们 今天 打算 去 爬山
过去的方法 向量的大小和词典大小相同
但是大部分全是0,只有少数不是0,可能只有小于100个非0,10^5 都是0
问题:
不能表示语义相似度
稀疏性

Distributed Representation
向量长度认为自定义,不依赖词典,一般100,200,300最多
解决了Sparsity 问题
都不为0
可表示两个单词间的语义相似度

分布式表示方法 针对单词 称为词向量 word vector

Q:100维的One-hot 表示方法最多可以表达多少个不同的单词?100 Capacities 100
Q:100维的分布式表示法最多可以表达多少个不同的单词?如果为binary 每个维只能为0,1;那么可以2^100个不同单词

Learn Word Embeddings

输入Input String
训练集数量有一定保证
输入->深度学习模型->Distributed Representation

dim/D:100,300 需要提前定好

词向量代表单词的意思,
Word2Vec 某种意义上能理解词的意思

词向量第一个论文 woman 和 man 是类的关系
woman-man~=girl-boy

理想情况每个词都有很好的表示情况

某种意义上具有同一个含义的单词会聚集在一起,
拥有类似含义的词会聚集在一起

但是在one-hot 中没有这样的特点

训练之后,放入二维空间中寻找特点,

from word embedding to sentence embedding

平均的方法 example “我们 去 运动”
找到三个词向量,叠加在一起,然后求均值

也可以使用LSTM/RNN求句子向量

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值