https://mp.weixin.qq.com/s/RLxWevVWHXgX-UcoxDS70w 这篇讲的很好
https://zhuanlan.zhihu.com/p/53682800 主要参考这两篇
https://blog.csdn.net/Miracle_520/article/details/105346882 这篇也不错
https://www.chinahadoop.cn/course/open/lesson/27464/play
神经网络需要能够将源语句的所有必要信息压缩成固定长度的向量。这可能使得神经网络难以应付长时间的句子,特别是那些比训练语料库中的句子更长的句子;每个时间步的输出需要依赖于前面时间步的输出,这使得模型没有办法并行,效率低;仍然面临对齐问题。
再然后CNN由计算机视觉也被引入到deep NLP中,CNN不能直接用于处理变长的序列样本但可以实现并行计算。完全基于CNN的Seq2Seq模型虽然可以并行实现,但非常占内存,很多的trick,大数据量上参数调整并不容易。
</