one-hot表达(独热编码)
假设世界上总共有100个单词,我们就可以用一个维度为100的向量来表示单词。这个向量中只有一个1,其他都为0.
特点:高维,稀疏,正交
高维:加入我们有1000个呢,我们需要使用一个维度为1000的向量,维度太高。
稀疏:每个向量都是稀疏向量,只有一个位置有1,其他全部为0.
正交:每个向量都正交,向量相乘为0.
当然这种表示方法也存在一个重要的问题就是“词汇鸿沟”现象:任意两个词之间都是孤立的。光从这两个向量中看不出两个词是否有关系,哪怕是话筒和麦克这样的同义词也不能幸免于难。(参考2)
word embedding(词嵌入)
把词映射成语义空间中的一个点。这样的话,可以解决上面的“词汇鸿沟”现象现象,比如猫和狗这两个单词比较相近,都是表示动物的,这样的话,猫和狗的词向量的距离就比猫和麦克风的距离短。
通过这张图,我们可以看到,在语义空间内,词向量man和woman,king和queue之间的距离相同。词向量walking和walked,swimming和swam之间的距离也相同。
词嵌入就是将单词嵌入一个底维,稠密的空间。
参考1:https://www.jianshu.com/p/af8f20fe7dd3
参考2:http://licstar.net/archives/328
参考3:https://www.zhihu.com/people/YJango/creations/19559450