01 什么是Attention
我们以招聘网站的简历匹配度为例,帮助你轻松理解Attention。
Attention
想必各位社畜都用过各大招聘网站投过简历,在这里把公司 HR 招聘过程比做一个注意力计算过程,HR 拿到了甲乙丙丁 4 人的简历,4 人都有自己的擅长,甲擅长 IT,乙擅长跑步,丙擅长游泳,丁擅长演讲,IT、跑步、游泳和演讲就是 key,将这些 key 在每人身上拉平,并赋予能力值,例如甲擅长 IT,乙不擅长 IT,则甲IT的能力值为 0.9,乙IT的能力值为 0.1,这些能力值就是 value。
HR 要找一个 IT 能力强的人,HR 的需求就是 query,query 与 key 求点积相似度(再除以根下 dk,mask、softmax、dropout),再与能力值 value 矩阵计算,最终就是公司得到的这 4 人的 JD 匹配值。
Multi-Head-Attention
如果公司招聘的 JD 不仅要求 IT 能力强,而且要求擅长演讲,即为 2 头 Attention。
02 Attention计算方式
注意力机制的计算方式有很多,在这里拿最常用的举例,公式如下: