![](https://img-blog.csdnimg.cn/20201014180756916.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
自然语言处理
文章平均质量分 89
踩到柠檬脚好酸丶
这个作者很懒,什么都没留下…
展开
-
Teacher Forcing技术
以一个seq2seq模型为例,某一时刻t应该输出”you"这个词,但却错误的输出了“I”,那么如果将错误的输出传递给下一个时间序列,必然会影响接下来的输出,这个时候就有以下的策略。 两种策略为: 不管上一时刻输出是什么,当前时刻的输入总是规定好的,按照给定的 target 进行输入 当前时刻的输入和上一时刻的输出,是有关联的。具体来说就是,当前时刻的输入就是上一时刻的输出 如果使用第二种方式,其中只要一步预测错,后面的预测就会越来越跑偏,很难收敛 但是第一种训练方式存在以下的问题: 在解码的时候原创 2020-09-17 09:03:28 · 1788 阅读 · 1 评论 -
Transformer中的Positional Encoding
参考资料:https://wmathor.com/index.php/archives/1453/ 首先你需要知道,Transformer 是以字作为输入,将字进行字嵌入之后,再与位置嵌入进行相加(不是拼接,就是单纯的对应位置上的数值进行加和) 需要使用位置嵌入的原因也很简单,因为 Transformer 摈弃了 RNN 的结构,因此需要一个东西来标记各个字之间的时序 or 位置关系,而这个东西,就是位置嵌入 One possible solution to give the model原创 2020-09-16 15:37:36 · 465 阅读 · 0 评论 -
Ng团队的自然语言处理课程笔记
Ng团队的自然语言处理课程笔记(一) 关于使用Logistic Regression实现情感分类问题:向量化、预处理、初步实验 https://blog.csdn.net/kzz6991/article/details/106958241转载 2020-08-20 11:30:37 · 169 阅读 · 0 评论