NLP(3)词向量

最新推荐文章于 2024-02-16 18:08:54 发布

CharlesPoletoWin

最新推荐文章于 2024-02-16 18:08:54 发布

阅读量245

点赞数

分类专栏： NLP

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_43277406/article/details/101672111

版权

NLP 专栏收录该内容

4 篇文章 1 订阅

订阅专栏

Measure similarity between words

One-hot 和预先相似度无法表示相似

Another Issue: Sparsity
我们今天打算去爬山
过去的方法向量的大小和词典大小相同
但是大部分全是0，只有少数不是0，可能只有小于100个非0,10^5 都是0
问题：
不能表示语义相似度
稀疏性

Distributed Representation
向量长度认为自定义，不依赖词典，一般100,200,300最多
解决了Sparsity 问题
都不为0
可表示两个单词间的语义相似度

分布式表示方法针对单词称为词向量 word vector

Q:100维的One-hot 表示方法最多可以表达多少个不同的单词？100 Capacities 100
Q:100维的分布式表示法最多可以表达多少个不同的单词？如果为binary 每个维只能为0,1；那么可以2^100个不同单词

Learn Word Embeddings

输入Input String
训练集数量有一定保证
输入->深度学习模型->Distributed Representation

dim/D:100,300 需要提前定好

词向量代表单词的意思，
Word2Vec 某种意义上能理解词的意思

词向量第一个论文 woman 和 man 是类的关系
woman-man~=girl-boy

理想情况每个词都有很好的表示情况

某种意义上具有同一个含义的单词会聚集在一起，
拥有类似含义的词会聚集在一起

但是在one-hot 中没有这样的特点

训练之后，放入二维空间中寻找特点，

from word embedding to sentence embedding

平均的方法 example “我们去运动”
找到三个词向量，叠加在一起,然后求均值

也可以使用LSTM/RNN求句子向量

CharlesPoletoWin

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
NLP(3)词向量

Measure similarity between wordsOne-hot 和预先相似度无法表示相似Another Issue: Sparsity我们今天打算去爬山过去的方法向量的大小和词典大小相同但是大部分全是0，只有少数不是0，可能只有小于100个非0,10^5 都是0问题：不能表示语义相似度稀疏性Distributed Representation向量长度认...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。