李宏毅机器学习——学习笔记(13) Unsupervised Learning-Word Embedding

Word Embedding

  1. word表示方法:
    (1)如果对word embedding用one hot编码方式来表示,难以表示word之间的关系;
    (2)但是如果用word class的话,太过粗糙;
    (3)所以用word embedding来表示,机器阅读大量无监督的文章来学习单词的含义;word的含义可以由上下文所学习理解;
  2. 如何从上下文中探索word的含义?
    (1)如果两个word之间同时出现的次数越多,两者之间就越相近。
    在这里插入图片描述
    (2)Prediction based 方法:收集一大堆数据,根据上下文来预测下一个将要出现的word。
    在这里插入图片描述
    word的embedding结果,可以将word的one hot向量输入神经网络之前进行embedding,通过训练得到每个word的embedding结果。
    在这里插入图片描述
    (3)在预测时,可以观察前n个单词,但是在输入到embedding层时,共享weight,保证网络的课拓展性。
    在这里插入图片描述
  3. 基于预测的word embedding的不同架构:
    (1)CBOW(Continuous bag of word model):预测中间的词汇
    (2)Skip-gram:通过中间的词汇,预测两边的词汇
    在这里插入图片描述
  4. Document Embedding:将文章embedding,因为文章的长度不同,可以用Bag-of-word(每一项表示对应词汇出现的数目)来表示一篇文章;但是这种方式是不够的,文章中词的顺序对文章所表示的含义有着重要的作用。
    在这里插入图片描述
  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值