【研0日记】24.01.10

今天早上,跑了一下代码,然后看了两眼conditional detr论文,工作不难,但是确实伟大,解耦了交叉注意的context和position,而且看框图的时候,cross attention里面Q的pos部分是由上一层输出的decoder embedding和上一层bbox的中心点共同作用,一开始觉得不是只要bbox这个位置信息不就好了么,为什么还要利用上一层的输出,然后看了论文,人家是说:最后的时候,是依靠最后一层的decoder embedding来回归得到cls和bbox,那说明输出的embedding也包含了位置信息。醍醐灌顶,这个思路确实有道理

然后早上看到作者发文,说self attention具有nms的作用,因为nms需要proposal之间进行交互,self attention刚好就是在做这个事情,但是我想了很久,感觉不太像,self attention确实是在让所有query自我交互,但是这个过程应该是在学习query之间的关联,或者相关的特征。transformer用在nlp上,有人举例子就说,一个query就是一个word,self attention充分关注每一个word之间的关系,比如就有可能学到同一个句子中的语法结构什么的;vit应该也差不多是这样,就是学到每一个patch之间的联系,但是不太像是能去除冗余信息

就比如下面这个图,中间得到一个2*2的矩阵,分别是qi和qj之间的关联度,记作<qi,qj>,下面式子在计算的就是,q1_next = q1 * <q1,q1> + q2 * <q1,q2>,q2_next = q1 * <q2,q1> + q2 * <q2,q2>,就是按照关联度把q1和q2加权求和而已。如果要达到去重效果,就应该是,越关联的几个query,其中一个权值高,另外几个权值低;self attention是,越关联权值就越高,越不关联权值才低

应该是这样吧,反正我也搜了很多,没有提到self attention具有nms效果的,detr对去重最大贡献的模块应该是匈牙利匹配吧,因为每次都会根据matching loss进行one-to-one的匹配,每次只选和gt数量一致的query计算loss


回去睡觉,晚上来把dn-detr和queryinst看了,这两天就专注先把学长的东西搞完再搞我自己的活吧


结果都没看,半路上被导push,太惨了,本来想画图,但是优先跑实验,代码改了好久

jb东西,mmdet版本不对,里面该有的模型代码全都没有,我又不敢换版本,因为这个版本之前都是适配的,我就只能在mmdet github下载最新版本的zip,然后一个一个粘贴过去,手动导包,天知道老子现在的精神状态有多好

而且一开始跑的时候,我看他iter数,woc?5w多?我以为是单epoch5w多个iter,还一共12个epoch,那tm得跑多久啊,好几天跑不完,我还跟学长说

结果是tmd那个mmcv textloggerhook,有两种log模式,by_epoch=True,就打印每个epoch的iter数,“Epoch [2(当前epoch)] [10(当前iter)/ 100(当前epoch的iter总数)] ”,如果=False,就不打印epoch,并且打印整个训练过程的所有iter总数,“Iter [100(当前iter)/ 10000(所有epoch的iter总数)] ”,然后他用的是第二种,所以其实5w多是12个epoch的所有iter

好好好

明天画图

  • 9
    点赞
  • 10
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值