思考:课程中提到了beam search
觉得讲的太粗略,而且例子给的不清晰,留下两个疑问
- 在beam search里面,每一个保留的是所有搜索的top k最优,还是一开始分成k个子搜索,然后每一步保留子搜索的最优?
- 最终有k个结果,如何选择最优?
注意力机制,简单的理解,就是对输入进行加权求平均,而这个权就是注意力的分配
机器翻译、 seq2seq模型、注意力机制、transformer
最核心的概念, encoder 与 decoder
这个框架其实可以用在许多地方,比如图像生成,风格转移等等
简单说就是通过循环神经网络将输入进行编码,相当于得到一把秘钥
然后把秘钥输入到第二个循环神经网络进行解码,得到输出
只要想办法将输入与输出配对进行训练,便可以通过这种框架实现编码与解码
因此个人认为这套框架可以用在很多有意思的场景,比如将图片与诗词配对,算法学习的就是看图写诗了