【无标题】

最新推荐文章于 2024-06-18 17:30:32 发布

石头猿rock

最新推荐文章于 2024-06-18 17:30:32 发布

阅读量50

点赞数

分类专栏： NLP 文章标签：机器学习人工智能 python

本文链接：https://blog.csdn.net/weixin_42887772/article/details/125742246

版权

NLP 专栏收录该内容

13 篇文章 0 订阅

订阅专栏

绑定输入输出的词向量矩阵 $W_{m,v}$

节省一半的参数量，词向量矩阵非常耗内存，只需维护一个即可。

解码方式

auto-regressive：seq2seq
CRF：建模隐状态之间的线性依赖关系

Train with teacher forcing

好处：加快模型训练速度，噪声少，收敛快
坏处：没有自我纠错的能力
解码过程预测错误的现象：exposure bias 解决方案：teacher forcing与non-teacher forcing结合
先用teacher forcing训练前几个epoch（或几个batch），然后non-teacher forcing训练后几个epoch，模型会具备一定的纠错能力。

How to decode

$argmaxP_\theta(Y|X)=argmax\prod_{i=1}^{n}P_\theta(y_i|y_1...y_{i-1},X)$
解码过程：维特比算法不行
启发式解码：
Greedy Decode：在当前位置只选择最优的输出
问题：在每个位置都是唯一的预测，不可能对前面的错误进行修改
Beam Search：在每个位置留出k个(score最大)可能的候选，一定程度上解决上面的问题
$score(y_1,...,y_t)=\sum_{i=1}^tlogP_{lm}(y_t|y_1...y_{t-1},x)$
因为在beam search中的每一个score都是负数，越长的序列加起来越小，所以beam search更倾向于生成短句子
维特比算法和Beam search的区别：
维特比算法在生成当前位置的输出时依赖前面一个（或有限个）的输出，而beam search是依赖所有前面位置的输出

石头猿rock

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
0
评论
【无标题】

节省一半的参数量，词向量矩阵非常耗内存，只需维护一个即可。auto-regressive：seq2seqCRF：建模隐状态之间的线性依赖关系好处：加快模型训练速度，噪声少，收敛快坏处：没有自我纠错的能力解码过程预测错误的现象：exposure bias 解决方案：teacher forcing与non-teacher forcing结合先用teacher forcing训练前几个epoch（或几个batch），然后non-teacher forcing训练后几个epoch，模型会具备一定的纠错能力
复制链接

扫一扫