Measure similarity between words
One-hot 和预先相似度无法表示相似
Another Issue: Sparsity
我们 今天 打算 去 爬山
过去的方法 向量的大小和词典大小相同
但是大部分全是0,只有少数不是0,可能只有小于100个非0,10^5 都是0
问题:
不能表示语义相似度
稀疏性
Distributed Representation
向量长度认为自定义,不依赖词典,一般100,200,300最多
解决了Sparsity 问题
都不为0
可表示两个单词间的语义相似度
分布式表示方法 针对单词 称为词向量 word vector
Q:100维的One-hot 表示方法最多可以表达多少个不同的单词?100 Capacities 100
Q:100维的分布式表示法最多可以表达多少个不同的单词?如果为binary 每个维只能为0,1;那么可以2^100个不同单词
Learn Word Embeddings
输入Input String
训练集数量有一定保证
输入->深度学习模型->Distributed Representation
dim/D:100,300 需要提前定好
词向量代表单词的意思,
Word2Vec 某种意义上能理解词的意思
词向量第一个论文 woman 和 man 是类的关系
woman-man~=girl-boy
理想情况每个词都有很好的表示情况
某种意义上具有同一个含义的单词会聚集在一起,
拥有类似含义的词会聚集在一起
但是在one-hot 中没有这样的特点
训练之后,放入二维空间中寻找特点,
from word embedding to sentence embedding
平均的方法 example “我们 去 运动”
找到三个词向量,叠加在一起,然后求均值
也可以使用LSTM/RNN求句子向量