多模态MLLM都是怎么实现的(7)-Sora
我个人认为也算,比如你小时候对一个字记住怎么写,那不也是你多次接触的结果吗?好玩的来了,我虽然被拉到了一个向量里,这里面我加了2层(实际上是多层,逻辑上2层)mask过的线性层,一个是self-attention层(但是只算QK),一个是pooling层(QKV之前的pooiling),虽然这三个图的patches都在一个向量里,但是因为mask的存在,我们还是能各算各地,比如算1就mask2和3,然后最终完成QKV的计算,还能保证虽然大家在一个向量里,可是分别计算,没有混乱。
复制链接