word embedding初探

one-hot表达(独热编码)

在这里插入图片描述
假设世界上总共有100个单词,我们就可以用一个维度为100的向量来表示单词。这个向量中只有一个1,其他都为0.
特点:高维,稀疏,正交
高维:加入我们有1000个呢,我们需要使用一个维度为1000的向量,维度太高。
稀疏:每个向量都是稀疏向量,只有一个位置有1,其他全部为0.
正交:每个向量都正交,向量相乘为0.

当然这种表示方法也存在一个重要的问题就是“词汇鸿沟”现象:任意两个词之间都是孤立的。光从这两个向量中看不出两个词是否有关系,哪怕是话筒和麦克这样的同义词也不能幸免于难。(参考2)

word embedding(词嵌入)

在这里插入图片描述
把词映射成语义空间中的一个点。这样的话,可以解决上面的“词汇鸿沟”现象现象,比如猫和狗这两个单词比较相近,都是表示动物的,这样的话,猫和狗的词向量的距离就比猫和麦克风的距离短。

在这里插入图片描述通过这张图,我们可以看到,在语义空间内,词向量man和woman,king和queue之间的距离相同。词向量walking和walked,swimming和swam之间的距离也相同。

词嵌入就是将单词嵌入一个底维,稠密的空间。

参考1:https://www.jianshu.com/p/af8f20fe7dd3
参考2:http://licstar.net/archives/328
参考3:https://www.zhihu.com/people/YJango/creations/19559450

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值