有两个序列 X 、 Y X、Y X、Y:序列 X X X提供查询信息 Q Q Q,序列 Y Y Y提供键、值信息 K 、 V K、V K、V。 Q ∈ R x _ l e n × i n _ d i m Q\in R^{
{x\_len}\times {in\_dim}}{} Q∈Rx_len×in_dim K ∈ R y _ l e n × i n _ d i m K\in R^{
{y\_len}\times {in\_dim}}{} K∈Ry_len×in_dim V ∈ R y _ l e n × o u t _ d