5.Transformer
编码与解码
位置编码
多头自注意力
以上三个小节请见:《鞋匠的AI之旅》- 5. Transformer【上】
综合决策
残差与归一化
以上两个小节请见:《鞋匠的AI之旅》- 5. Transformer【中】之“前馈神经网络、残差与归一化”
开始与结束
在试图吹散上一章节结束时提到的两片乌云之前,鞋匠觉得还有一件事情要做,它很重要。在人类当下的婆娑世界,一切都有从出生、成长、发展、没落、消亡的过程。这是自然规律,不可打破。对于Transformer中的解码器来说,也不例外,在实际生成文本的时候,它要知道从什么时候开始,到什么时候结束。就像百米赛跑,总要有个起点,和与其对应的终点。仔细想想,人类思考一个问题给出答案的过程也是如此,看到问题,经过思考找到答案,大脑指挥嘴巴说出第一个字,后面陆续说出所有的字,直到答案结束。这里赛跑的起点,大脑指挥嘴巴“开始”说出第一个字的信号,都是一种开始的标志,同样,赛跑的终点,大脑指挥嘴巴说出完整的答案后发出的停止说话的信号,也是一种标志,它是结束的标志。鞋匠觉得需要强调下,这里运动员迈出的第一步,嘴巴说出的第一个字不是开始标志,它们只是紧随开始标志的实际内容。同样,这里运动员在赛跑过程中跑出的最后一步,嘴巴里说出的最后一个字,也不是结束的标志,它们只是结束标志之前的内容。因为运动员迈出的每一步都没有开始的属性,直到某一步跨越了起跑线,它就成了赛跑的第一步,嘴巴说出的每一个字也都没有开始的属性,直到它遇到大脑的信号开始回答某个问题,这个字就变成了答案的第一个字。
那么如何为Transformer找到开始标志和结束标志呢?鞋匠想,如果把Transformer看作可以与之互动的有机体,那么要使用什么来和Transformer交流呢?鞋匠觉得在当前的研究范围内(自然语言处理),和Transformer互动的基本单元就是to