李宏毅机器学习(13)

Word Embedding

当我们要用一个 v e c t o r vector vector表示一个word时,会发现1-of-N Encoding具有局限性,无法体现词义之间的联系;做word class也无法体现全面的信息。因此需要 word embedding。
word embedding就是用向量表示词。但这是无监督学习(输入一个词,输出一个向量)。但不可用auto-encoder。其基本思路就是:通过上下文找到这个词的意义。

在这里插入图片描述
目前,主要方法有Count basedPerdiction based

Count based

基本思想:让两者的 V e c t o r Vector Vector的内积与出现次数尽可能接近。
在这里插入图片描述

Perdiction based

而对于Prediction-based可以根据给一个句子中的单词来预测下一个单词是谁。
拿出第一个hidden layer即可。
在这里插入图片描述
此外,还有些Sharing Parameters等技巧。
有时一个单词的预测太弱了,要输入多个 V e c t o r Vector Vector时,每个 V e c t o r Vector Vector的相同位置乘上的权重要相同。
在这里插入图片描述
将式子整理一下:
在这里插入图片描述
同时,只要每次减掉相同的项,就可以保证权重相同。
在这里插入图片描述

如何训练

训练就是要最小化Cross entropy.
在这里插入图片描述

Prediction-based Various Architectures

下面还有两种变形

  • CBOW:拿两头预测中间
  • Skip-gram:拿中间预测两头
    在这里插入图片描述

Word Embedding

机器在读了大量的文章后,形成了一些点(word)。
将有相同关系的word连在一起,发现他们会形成类似的图形。这代表着我们可以用这个方法来预测word。
在这里插入图片描述
在这里插入图片描述

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值