莫烦NLP学习笔记--03理解句子

Seq2Seq生成模型

Encoder和Decoder

在这里插入图片描述

  1. Encoder化繁为简,将句子转成标准的向量表达,提取最有用的特征;
  2. Decoder将向量化表达转变成其他的表达形式,将压缩好的信息解压成另外一种形式

翻译

翻译可称作seq2seq,将一个 sequence 转换成另一个 sequence,即用Encoder压缩并提炼第一个sequence的信息,然后用Decoder将这个信息转换成另一种语言。
在这里插入图片描述

优化

避免前期捡了芝麻后期丢了西瓜,如果使用 beam search, 我们不仅仅关注当前最优策略, 而且每预测一个词时,还保持关注当时刻所有候选词的N个最优策略,结束预测时,就有很大概率能够找到全局比较优的路径。

在这里插入图片描述

举个例子,如果我们用beam search size = 2, 意味着每次预测都记录最优的两个预测,然后沿着这两个预测继续预测, 每次后续的预测都只挑选下一步最好的两个预测。 这样加大了搜索范围,使我们有机会接触到全局较优路径。

CNN的语言模型

上文使用的RNN模型产生句向量embedding,即RNN作encoder,其实CNN也可以作encoder。一句话概括该模型:用N个不同长度时间窗口,以CNN的卷积方法在句子中依次滑动,让模型拥有N种阅读的眼界宽度,综合N种宽度的信息总结出这句话的内容。

如何卷积

如何使用CNN做Encoder?
在这里插入图片描述
学者想利用CNN去利用不同长度的卷积核去观察句子中不同长度的局部特征。 然后CNN对句子的理解就是不同长度的局部特征拼凑起来的理解。比如:

  • 卷积核A两个两个字一起看;
  • 卷积核B三个三个字一起看;
  • 卷积核C四个四个字一起看;

卷积核ABC利用自己看句子的独特视角,能够提炼出对句子不同的理解,然后如果再汇集这些不同理解,就有了一个对句子更加全面的理解。

局限性

CNN作encoding要求有个句子最长的限制,如果句子超过这个长度,最好截断它。类比图像,在给图像做卷积,图像也是要定长定宽的,不然卷积和池化会有尺度上的问题。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值