【研0日记】24.01.10

dickyy666

已于 2024-01-11 18:07:38 修改

阅读量380

点赞数 9

分类专栏：读研日记文章标签：学习

于 2024-01-10 15:15:23 首次发布

本文链接：https://blog.csdn.net/m0_56654371/article/details/135502884

版权

读研日记专栏收录该内容

34 篇文章 0 订阅

订阅专栏

今天早上，跑了一下代码，然后看了两眼conditional detr论文，工作不难，但是确实伟大，解耦了交叉注意的context和position，而且看框图的时候，cross attention里面Q的pos部分是由上一层输出的decoder embedding和上一层bbox的中心点共同作用，一开始觉得不是只要bbox这个位置信息不就好了么，为什么还要利用上一层的输出，然后看了论文，人家是说：最后的时候，是依靠最后一层的decoder embedding来回归得到cls和bbox，那说明输出的embedding也包含了位置信息。醍醐灌顶，这个思路确实有道理

然后早上看到作者发文，说self attention具有nms的作用，因为nms需要proposal之间进行交互，self attention刚好就是在做这个事情，但是我想了很久，感觉不太像，self attention确实是在让所有query自我交互，但是这个过程应该是在学习query之间的关联，或者相关的特征。transformer用在nlp上，有人举例子就说，一个query就是一个word，self attention充分关注每一个word之间的关系，比如就有可能学到同一个句子中的语法结构什么的；vit应该也差不多是这样，就是学到每一个patch之间的联系，但是不太像是能去除冗余信息

就比如下面这个图，中间得到一个2*2的矩阵，分别是qi和qj之间的关联度，记作<qi，qj>，下面式子在计算的就是，q1_next = q1 * <q1，q1> + q2 * <q1，q2>，q2_next = q1 * <q2，q1> + q2 * <q2，q2>，就是按照关联度把q1和q2加权求和而已。如果要达到去重效果，就应该是，越关联的几个query，其中一个权值高，另外几个权值低；self attention是，越关联权值就越高，越不关联权值才低

应该是这样吧，反正我也搜了很多，没有提到self attention具有nms效果的，detr对去重最大贡献的模块应该是匈牙利匹配吧，因为每次都会根据matching loss进行one-to-one的匹配，每次只选和gt数量一致的query计算loss

回去睡觉，晚上来把dn-detr和queryinst看了，这两天就专注先把学长的东西搞完再搞我自己的活吧

结果都没看，半路上被导push，太惨了，本来想画图，但是优先跑实验，代码改了好久

jb东西，mmdet版本不对，里面该有的模型代码全都没有，我又不敢换版本，因为这个版本之前都是适配的，我就只能在mmdet github下载最新版本的zip，然后一个一个粘贴过去，手动导包，天知道老子现在的精神状态有多好

而且一开始跑的时候，我看他iter数，woc？5w多？我以为是单epoch5w多个iter，还一共12个epoch，那tm得跑多久啊，好几天跑不完，我还跟学长说

结果是tmd那个mmcv textloggerhook，有两种log模式，by_epoch=True，就打印每个epoch的iter数，“Epoch [2（当前epoch）] [10（当前iter）/ 100（当前epoch的iter总数）] ”，如果=False，就不打印epoch，并且打印整个训练过程的所有iter总数，“Iter [100（当前iter）/ 10000（所有epoch的iter总数）] ”，然后他用的是第二种，所以其实5w多是12个epoch的所有iter

好好好

明天画图

dickyy666

关注

9
点赞
踩
10

收藏

觉得还不错? 一键收藏
0
评论
【研0日记】24.01.10

transformer用在nlp上，有人举例子就说，一个query就是一个word，self attention充分关注每一个word之间的关系，比如就有可能学到同一个句子中的语法结构什么的；就比如下面这个图，中间得到一个2*2的矩阵，分别是qi和qj之间的关联度，记作，下面式子在计算的就是，q1_next = q1 * + q2 * ，q2_next = q1 * + q2 * ，就是按照关联度把q1和q2加权求和而已。
复制链接

扫一扫