nlp期末复习-词向量

1、不能体现词的含义进行编码(one-hot)
2、单词按照含义进行编码成向量的方式称为word embedding

Word Embedding:Word2Vec(CBOW/Skip-gram)—>Glove

  • 使用Word Embedding:句子中每个单词以Onehot形式作为输入,然后乘以学好的Word
    Embedding矩阵Q,就直接取出单词对应的Word Embedding了

  • Word2Vec
    CBOW模型的训练输入是某一个特征词的上下文(context)相关的词对应的词向量,而输出就是这特定的一个词(目标单词target)的词向量。

    核心思想是从一个句子里面把一个词抠掉,用这个词的上文和下文去预测被抠掉的这个词;

    skip-gram模型和CBOW模型相反,目标单词现在在输入层,上下文单词在输出层

3、从Word Embedding到Bert模型
  • Word Embedding:Word2Vec(CBOW/Skip-gram)—>Glove

!!!无法解决词的多义问题

缺点:
Word Embedding在对bank这个单词进行编码的时候,是区分不开这两个含义的,因为它们尽管上下文环境中出现的单词不同,但是在用语言模型训练的时候,不论什

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值