dickyy666-CSDN博客

原创【研0日记】24.03.13

定个目标吧，今天把要做的两个模型paper看完，然后大致开始看代码，这两天看完人家的代码。马上就能投了，争取3月内投出去，然后4月就能开新工作了。现在paper就是差几个实验，实验完了就好很多了。好久没写日记了，摆烂了这么久。

2024-03-13 17:12:07 347

原创【研0日记】24.01.28

又要大改，哈哈哈哈哈哈，我的精神状态真的是太好了。

2024-01-28 14:22:05 377

原创【研0日记】24.01.26

今天怎么说呢，确实是差不多写完了，虽说可以继续写，但是再写就超12页了，要额外收钱，而且我还要删掉一点。今天还照老师要求查重了一次，花了84，还行，但是这年头查重真的好贵啊，同一个文档别的网站要几百块。明天还要再改，明天再说吧，今天不想管了，这周内不知道能不能搞定呢。这花花绿绿的还真好玩嘿嘿嘿。

2024-01-26 22:37:33 534

原创【研0日记】24.01.25

明天写完发给学长和老师看看，然后坐等修改。受不了了，不想写了，这群b怎么这么能写。用latex写了个伪代码，有点好玩。尽量走前做完吧，不想带回家做。老子不信明天写不完，艹。

2024-01-25 17:07:54 359

原创【研0日记】24.01.24

pami还要查重，我还得改写and多写一点，这群狗是真的能写啊，洋洋洒洒几大段，真nb，受不了了。今天也是终于把整篇paper的框架打好了，要是没啥问题明天就可以开始写了。ieeetran的格式是真的复杂，昨天研究了好久，终于调好了。好想回家啊啊啊啊啊啊啊啊，快把paper写完然后开开心心回家。这几天就是跑实验写paper，没啥事情干。突然发现好几天没写日记了。

2024-01-24 22:05:04 362

原创【研0日记】24.01.20

早上来看消融实验结果，发现结果太好了hhh，然后就换成0/1的监督再试试，3个整实验跑下去，又要两天了，又可以摸两天鱼了。什么时候回家，回家学cpp和计网嘿嘿嘿，来年再学nerf吧。

2024-01-20 12:36:07 371

昨天就是，写paper，然后开跑ablation，今天发现no prompt的结果也还是很好，笑死，所以感觉那个prompt其实不是关键，之前也试过了把pos编码加进去，结果也还是很好，关键还是预监督。特价机票算上机建燃油才350，本来也想2月初走的，但是那个时候要么没有特价票，要么都是阴间时间晚上8、10点，回到去都没公共交通了，然后发现31号大白天的都是特价票，定了黄金时间下午1点，地铁去地铁回。昨天买了31号的机票，马上就可以回家啦！还有10天，冲冲冲，快把paper写完，就可以回家啦！

2024-01-19 11:43:51 352

原创【研0日记】24.01.17

哈哈哈哈哈哈，今天什么都没干，还打了麻将，赢麻啦！写完paper，看完dn-detr，学nerf。

2024-01-17 21:09:23 369

原创【研0日记】24.01.16

好想回家，还有半个多月，好漫长啊啊啊啊啊啊，要是不读这个b研，老子半个月前就已经回家了，而且只放假两周，受不了了想死，早知道当时填志愿还不如去中大，离家近啥时候都能回家，tmd。结果没打囚鸟2，据说没有1好玩，而且爆改热血黑社会风格，emmmm那婉拒了，换了d先生的不在场证明，也好玩的，很硬核，之后还打了七日囚徒，好玩的！打了个本回来，摆了好几天，md太想玩了，人为什么要学习。今天晚上来，把paper修修补补写完了方法部分。改paper，备份数据，改代码开跑！

2024-01-16 23:04:36 370

原创【研0日记】24.01.12

学长还叫我看一下nerf的工作，接下来就做nerf+ov了，嘿嘿嘿，我居然也有做3d的一天，我以为我就要一直做2d了。不过也终究是开始跑了，预计这周内能跑完实验吧，然后这周还打算写paper，昨天真是被学长和老师轮流push，hhh。早上来画了下图，昨天老师说那个图重点不够突出，我就把颜色改了改，knet部分换成灰色，新的部分统一了颜色。也据说大概率是数组索引越界了，我这个情况就是这样，类别还是设置成了1没有改成80。而且预训练的时候cuda还一直爆显存，最后换了bs=2，跑得好慢受不了了。

2024-01-12 20:26:50 378

原创【研0日记】24.01.11

然后画图，早上加下午，终于给老子画完了，累死了，画的真好看，我就不贴上来了。早上来跑代码，顺利跑起来了，目前来看至少是涨点了。然后这两天，尽快写paper了。

2024-01-11 18:11:15 339

原创【研0日记】24.01.10

transformer用在nlp上，有人举例子就说，一个query就是一个word，self attention充分关注每一个word之间的关系，比如就有可能学到同一个句子中的语法结构什么的；就比如下面这个图，中间得到一个2*2的矩阵，分别是qi和qj之间的关联度，记作，下面式子在计算的就是，q1_next = q1 * + q2 * ，q2_next = q1 * + q2 * ，就是按照关联度把q1和q2加权求和而已。

2024-01-10 15:15:23 392

原创【研0日记】24.01.09

在原始detr里面，特征图是直接和位置编码相加，但是在conditional detr中，decoder layer中的cross attention的q和k就不是相加而是拼接，这样做是能够将q、k中的语义部分和位置部分分别解耦出来，q的语义和k的语义查询，q的位置和k的位置查询。其实这个也算是给了我一点启发，首先在knet里面就会对feature map进行位置编码，并且选择了相加的形式，这个feature map可以看作是transformer里面，cross attention的K。

2024-01-09 17:50:07 344

原创【研0日记】24.01.06

2、把patch feature加到每一个kernel update stage前的kernel里面，我是想，每个stage其实都差不多，就是迭代的差别，就是kernel送进去，然后更新kernel，而且每个stage都用同一张feature map，那为啥只改kernel_0不管其他的捏，要不试试？浅浅记录一下，不敢深入太多，怕把别的忘了hhhh，而且本来也没想得太细致，想回去了，明天看看dab-detr之类的，看一下query的性质，毕竟knet和transformer其实就是很像。

2024-01-06 23:40:44 332

原创【研0日记】24.01.05

就是说有模块/参数没有被用来计算损失，好像据说是，要确保你的所有的forward的函数的所有输出都被用于计算损失函数了，或者说所有的模块的经过forward输出都要用来计算loss。考了个python，真jb无语考了个__sub__，拿来计算两个类相减，我真没想到考这个，今天是我第一次听说这个魔法方法。几次预训练用的伪标注居然不一样，给我吓的，然后换成一样的重新跑一下，坐等结果。然后我这里的问题就是，定义了一个线性层，但是没用上，又没删掉，删掉应该就好了（maybe）今天，终于，结束了本科生涯全部课程。

2024-01-05 20:27:43 421 1

原创【研0日记】24.01.04

今早来看了下结果，感觉也是大差不差，倒是在预训练的时候，loss的收敛加速了，而且也更低，不知道这个算不算一种提升。然后昨天看了很久的mmdet hook部分，感觉又理解了很多。

2024-01-04 11:47:12 397 1

原创【研0日记】24.01.03

匈牙利匹配问题就是随机性，每个epoch下kernel对应的gt都可能不一样，特别是前面几个epoch，所以是应该想办法让kernel在每个epoch都固定他对应的gt，比如说在epoch_1，k_1对应的是gt_1，那么在之后的epoch也应该让k_1尽量对应gt_1，重点是不同epoch下，kernel要对应相同的gt；然后早上还改了一下clip做辅助分类的代码，改了好久，各种各样的问题，有些也确实是我想简单了，最基础的from import都搞了挺久。

2024-01-03 17:38:15 296 1

原创【研0日记】24.01.02

所以我就想，分别看一下这几个数据集，每个类别的annotation在（自己数据集中）所有annotation的占比，如果训练集（即coco panoptic）包含的133类也在其他数据集大量出现，那其实很大概率这种蒸馏方法就不是 “开放世界” 的，他对于未知类别的分类能力其实还算是比较差，而且你看他验证ADE20K-847（847个类别），效果就不是特别好，这个数据集类别特别多，大概率跟coco panoptic的交集也少一点。妈呀一大早来真tm困死我了。

2024-01-02 16:35:25 423

原创【研0日记】23.12.31

因为每次step所有进程拿到的都是一个global_batch，要计算的是这个global_batch的均值方差，但是global_batch又会均分到每个进程上，每个进程只拿到一个local_batch。那么每次step，就：（1）前向传播，计算得到loss；（3）参数更新，把总的gradient更新给每个进程，然后每个进程单独更新模型。每个进程分别计算得到gradient_i，就需要最终把所有gradient加起来得到总的gradient，所以只要保证以下两点：（1）每个进程下模型初始化相同；

2024-01-01 16:30:05 358

原创【研0日记】23.12.30

比如2机8卡，每个机子4卡，然后就会为每个gpu分配：node_0（gpu0，gpu1，gpu2，gpu3），node_1（gpu0，gpu1，gpu2，gpu3）。其实这个ddp何to(device)我感觉有点分不清了，好像是说，ddp是在保证各个gpu的通信，参数、梯度啥的是一致的，差不多就这意思，如果没有这个只有to(device)的话，那就是各个gpu各跑各的，只是单纯地把模型和各个数据分别给每个gpu、每个gpu自己单独计算。然后其他就没啥了，优化器啥的都不需要分布式的设置。

2023-12-30 13:15:57 664 1

原创【研0日记】23.12.29

看了一些，感觉他们的意思是有多少命令就会顺序执行这些命令，否则要让程序 “等待上一条命令执行结束” 再执行下一条命令，然后找到了一个wait命令，可以等待所有或者特定pid的后台任务执行结束后再执行下一条命令。但是，实际测试的时候，我自己搞了几个小的test，我感觉不用写这个wait就可以实现我想要的那个效果，他会执行完bash test1.sh之后再执行bash test2.sh。下午研究了一下shell，我是想实现预训练和训练先后自动跑，就不用我监督着他了，比如有一个run.sh。

2023-12-29 22:29:43 378 1

原创【研0日记】23.12.28

然后我这个，kernel feature要先把通道数降到768（和clip一致），再和text embedding相乘得到class score。就是这个降通道数有点不知道用conv还是fc，我感觉还是应该要用conv（in_channel, clip_channel）而不是fc，接着应该也要再Norm一次、激活一次，但是就是这个Norm，线性层里用的是LN，我目前写的也是LN，就不知道会不会有什么影响。然后也就没什么要干了，要不就把开题报告写了，反正迟早要写，早写早完事。

2023-12-28 16:50:11 370 1

原创【研0日记】23.12.27

但是之前这种代码的写法，也确实是个想法，并且还挺有意思的。新的这一次这个算法（还是假设100个kernel，2个gt），就是首先保留cost1，让他自己去选出来2个kernel去和gt对应（假设选出来k0对应gt0，k1对应gt1），这个部分和匈牙利匹配完全一样，但是我希望要有更多的匹配信息，让所有kernel都得到训练，于是在此基础上，保留k0—gt0、k1—gt1的匹配关系不变，其他的kernel（k2~k99）就按照他自己的类别去对应gt。下面第一张图就是原始匈牙利匹配，第二张图就是建立索引匹配。

2023-12-27 12:46:23 363 1

原创【研0日记】23.12.26

首先第一个想法，之前不是两个cost做加权嘛，cost1是原来的匈牙利匹配cost，cost2是暴力匹配cost，但实际其实光cost1效果就挺好的，那就保留cost1，然后做完匹配之后，利用cost2把没匹配上的也加上，相当于求个并集，看看这样效果会不会好一点，据说dn-detr也有这样的操作？眼瞅着代码跑了几个小时，感觉效果没有之前那次好，差也差不太多，每次就差个零点几个点，唉难搞，一会还跟导会议，不知道该说点什么捏。干了一上午，代码终于能跑了，不知道效果怎么样，恰饭。聊完了，让我来记一下。

2023-12-26 14:54:43 709

原创【研0日记】23.12.25

但是大家在分类头上做的创新感觉并不是很多，基本上都就是local feature过一个分类头得到类别，然后用匹配算法找到对应的gt再做loss，我这其实唯一的区别就是，人家得到local feature是还不知道他对应的gt是哪一个，所以要用匈牙利匹配找到对应gt（有可能找错），我这个就是事先就知道了对应gt是哪个（不会找错），仅此而已。主要是感觉，毕竟预训练过程中的分类头和knet是一样的，要做分类的话肯定不好乱动，不然结构都不一样预训练肯定就没作用。

2023-12-25 16:53:13 377

原创【研0日记】23.12.24

分类损失前要有一个匈牙利匹配的步骤，就是根据match cost判读得到的prediction要跟哪个gt做损失，当然是相对于的pred和gt做损失才正确，我预测狗，当然就要和狗的gt做损失，而不是猫。有一个东西就感觉没用到，就是json的cls，在bbox划分feature map得到feature时，他其实就已经有类别信息了，就是他知道这是哪一类，因为我们有zero-shot inference得到的json，但是之前那样就相当于我还不知道这块feature的分类情况，后续再经过分类头去分类、做损失。

2023-12-24 16:24:48 363

原创【研0日记】23.12.21

嘿嘿嘿嘿我踏马回莱纳！煞笔航飞动终于考完啦！历时一周重回科研农民工。收拾了一下桌面，然后之前买了个新键盘现在也用上了，太爽了，白色的超级酷不说，声音还很小，手感挺不错的。学长去考试了，我也不想干活了呜呜呜。明天去打本，今天多呆一会吧。

2023-12-21 16:00:33 348

原创【研0日记】23.12.12

所以现在就是，有query embedding（qe）和clip embedding（ce），qe由于是在coco上训练的，所以有很强的pre-defined class的特征，而ce则是包含了整个图片的特征，不管新类旧类。首先他和昨天那篇方法上是一样的，base seg model + clip分类头，而且要解决的问题也是一样的，一个是重新训练图文匹配太不值当了，一个是使用现成的clip要如何平衡基础域和泛化域的问题，一个是把每个proposal都送进clip计算量太大了。不想干活啦，下午出去玩啦。

2023-12-12 13:51:36 32

原创【研0日记】23.12.11

而且他的目标毕竟是zero-shot，没有annotation，所以就只能随机裁剪获得views，感觉可以加上annotation，比如说把gt mask裁剪出来作为每一个view，获得 {v}。右边就是一个分割头，采用groupvit，feature token加上可学习的group token，一层一层学习，最后得到一系列的group token {g}，然后过transformer、pooling、mlp得到一个全局semantic feature z，这里都跟groupvit一模一样。

2023-12-11 12:14:38 107 1

原创【研0日记】23.12.10

现在是早上11点半，实验已经都能跑了，就是不知道结果怎么样，希望能好吧。累了不想看paper，不知道干什么好。

2023-12-10 11:40:39 73 1

原创【研0日记】23.12.09

左边是clip训练模式，拿两个 “全局” token做对比训练，但是太全局了，对分割任务不适配；右边就是实验，text和image相乘是探究text和image的匹配度，image和image相乘是探究image本身上下文的信息。这篇关于clip的理解还是很不错的，完了后续用了好几个数据集去训练clip，就相当于还是改了clip的特征空间了，我也不知道这种方式到底好不好。下午发现昨天跑的东西中断了，完了看了好久的mmdet代码，evaluate地方有个bug，但是估计也对训练结果没啥影响吧，就随便改改了。

2023-12-09 18:38:00 51

m0_56654371的博客