自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(34)
  • 收藏
  • 关注

原创 【研0日记】24.03.13

定个目标吧,今天把要做的两个模型paper看完,然后大致开始看代码,这两天看完人家的代码。马上就能投了,争取3月内投出去,然后4月就能开新工作了。现在paper就是差几个实验,实验完了就好很多了。好久没写日记了,摆烂了这么久。

2024-03-13 17:12:07 347

原创 【研0日记】24.01.28

又要大改,哈哈哈哈哈哈,我的精神状态真的是太好了。

2024-01-28 14:22:05 377

原创 【研0日记】24.01.26

今天怎么说呢,确实是差不多写完了,虽说可以继续写,但是再写就超12页了,要额外收钱,而且我还要删掉一点。今天还照老师要求查重了一次,花了84,还行,但是这年头查重真的好贵啊,同一个文档别的网站要几百块。明天还要再改,明天再说吧,今天不想管了,这周内不知道能不能搞定呢。这花花绿绿的还真好玩嘿嘿嘿。

2024-01-26 22:37:33 534

原创 【研0日记】24.01.25

明天写完发给学长和老师看看,然后坐等修改。受不了了,不想写了,这群b怎么这么能写。用latex写了个伪代码,有点好玩。尽量走前做完吧,不想带回家做。老子不信明天写不完,艹。

2024-01-25 17:07:54 359

原创 【研0日记】24.01.24

pami还要查重,我还得改写and多写一点,这群狗是真的能写啊,洋洋洒洒几大段,真nb,受不了了。今天也是终于把整篇paper的框架打好了,要是没啥问题明天就可以开始写了。ieeetran的格式是真的复杂,昨天研究了好久,终于调好了。好想回家啊啊啊啊啊啊啊啊,快把paper写完然后开开心心回家。这几天就是跑实验写paper,没啥事情干。突然发现好几天没写日记了。

2024-01-24 22:05:04 362

原创 【研0日记】24.01.20

早上来看消融实验结果,发现结果太好了hhh,然后就换成0/1的监督再试试,3个整实验跑下去,又要两天了,又可以摸两天鱼了。什么时候回家,回家学cpp和计网嘿嘿嘿,来年再学nerf吧。

2024-01-20 12:36:07 371

原创 【研0日记】24.01.19

昨天就是,写paper,然后开跑ablation,今天发现no prompt的结果也还是很好,笑死,所以感觉那个prompt其实不是关键,之前也试过了把pos编码加进去,结果也还是很好,关键还是预监督。特价机票算上机建燃油才350,本来也想2月初走的,但是那个时候要么没有特价票,要么都是阴间时间晚上8、10点,回到去都没公共交通了,然后发现31号大白天的都是特价票,定了黄金时间下午1点,地铁去地铁回。昨天买了31号的机票,马上就可以回家啦!还有10天,冲冲冲,快把paper写完,就可以回家啦!

2024-01-19 11:43:51 352

原创 【研0日记】24.01.17

哈哈哈哈哈哈,今天什么都没干,还打了麻将,赢麻啦!写完paper,看完dn-detr,学nerf。

2024-01-17 21:09:23 369

原创 【研0日记】24.01.16

好想回家,还有半个多月,好漫长啊啊啊啊啊啊,要是不读这个b研,老子半个月前就已经回家了,而且只放假两周,受不了了想死,早知道当时填志愿还不如去中大,离家近啥时候都能回家,tmd。结果没打囚鸟2,据说没有1好玩,而且爆改热血黑社会风格,emmmm那婉拒了,换了d先生的不在场证明,也好玩的,很硬核,之后还打了七日囚徒,好玩的!打了个本回来,摆了好几天,md太想玩了,人为什么要学习。今天晚上来,把paper修修补补写完了方法部分。改paper,备份数据,改代码开跑!

2024-01-16 23:04:36 370

原创 【研0日记】24.01.12

学长还叫我看一下nerf的工作,接下来就做nerf+ov了,嘿嘿嘿,我居然也有做3d的一天,我以为我就要一直做2d了。不过也终究是开始跑了,预计这周内能跑完实验吧,然后这周还打算写paper,昨天真是被学长和老师轮流push,hhh。早上来画了下图,昨天老师说那个图重点不够突出,我就把颜色改了改,knet部分换成灰色,新的部分统一了颜色。也据说大概率是数组索引越界了,我这个情况就是这样,类别还是设置成了1没有改成80。而且预训练的时候cuda还一直爆显存,最后换了bs=2,跑得好慢受不了了。

2024-01-12 20:26:50 378

原创 【研0日记】24.01.11

然后画图,早上加下午,终于给老子画完了,累死了,画的真好看,我就不贴上来了。早上来跑代码,顺利跑起来了,目前来看至少是涨点了。然后这两天,尽快写paper了。

2024-01-11 18:11:15 339

原创 【研0日记】24.01.10

transformer用在nlp上,有人举例子就说,一个query就是一个word,self attention充分关注每一个word之间的关系,比如就有可能学到同一个句子中的语法结构什么的;就比如下面这个图,中间得到一个2*2的矩阵,分别是qi和qj之间的关联度,记作,下面式子在计算的就是,q1_next = q1 * + q2 * ,q2_next = q1 * + q2 * ,就是按照关联度把q1和q2加权求和而已。

2024-01-10 15:15:23 392

原创 【研0日记】24.01.09

在原始detr里面,特征图是直接和位置编码相加,但是在conditional detr中,decoder layer中的cross attention的q和k就不是相加而是拼接,这样做是能够将q、k中的语义部分和位置部分分别解耦出来,q的语义和k的语义查询,q的位置和k的位置查询。其实这个也算是给了我一点启发,首先在knet里面就会对feature map进行位置编码,并且选择了相加的形式,这个feature map可以看作是transformer里面,cross attention的K。

2024-01-09 17:50:07 344

原创 【研0日记】24.01.06

2、把patch feature加到每一个kernel update stage前的kernel里面,我是想,每个stage其实都差不多,就是迭代的差别,就是kernel送进去,然后更新kernel,而且每个stage都用同一张feature map,那为啥只改kernel_0不管其他的捏,要不试试?浅浅记录一下,不敢深入太多,怕把别的忘了hhhh,而且本来也没想得太细致,想回去了,明天看看dab-detr之类的,看一下query的性质,毕竟knet和transformer其实就是很像。

2024-01-06 23:40:44 332

原创 【研0日记】24.01.05

就是说有模块/参数没有被用来计算损失,好像据说是,要确保你的所有的forward的函数的所有输出都被用于计算损失函数了,或者说所有的模块的经过forward输出都要用来计算loss。考了个python,真jb无语考了个__sub__,拿来计算两个类相减,我真没想到考这个,今天是我第一次听说这个魔法方法。几次预训练用的伪标注居然不一样,给我吓的,然后换成一样的重新跑一下,坐等结果。然后我这里的问题就是,定义了一个线性层,但是没用上,又没删掉,删掉应该就好了(maybe)今天,终于, 结束了本科生涯全部课程。

2024-01-05 20:27:43 421 1

原创 【研0日记】24.01.04

今早来看了下结果,感觉也是大差不差,倒是在预训练的时候,loss的收敛加速了,而且也更低,不知道这个算不算一种提升。然后昨天看了很久的mmdet hook部分,感觉又理解了很多。

2024-01-04 11:47:12 397 1

原创 【研0日记】24.01.03

匈牙利匹配问题就是随机性,每个epoch下kernel对应的gt都可能不一样,特别是前面几个epoch,所以是应该想办法让kernel在每个epoch都固定他对应的gt,比如说在epoch_1,k_1对应的是gt_1,那么在之后的epoch也应该让k_1尽量对应gt_1,重点是不同epoch下,kernel要对应相同的gt;然后早上还改了一下clip做辅助分类的代码,改了好久,各种各样的问题,有些也确实是我想简单了,最基础的from import都搞了挺久。

2024-01-03 17:38:15 296 1

原创 【研0日记】24.01.02

所以我就想,分别看一下这几个数据集,每个类别的annotation在(自己数据集中)所有annotation的占比,如果训练集(即coco panoptic)包含的133类也在其他数据集大量出现,那其实很大概率这种蒸馏方法就不是 “开放世界” 的,他对于未知类别的分类能力其实还算是比较差,而且你看他验证ADE20K-847(847个类别),效果就不是特别好,这个数据集类别特别多,大概率跟coco panoptic的交集也少一点。妈呀一大早来真tm困死我了。

2024-01-02 16:35:25 423

原创 【研0日记】23.12.31

因为每次step所有进程拿到的都是一个global_batch,要计算的是这个global_batch的均值方差,但是global_batch又会均分到每个进程上,每个进程只拿到一个local_batch。那么每次step,就:(1)前向传播,计算得到loss;(3)参数更新,把总的gradient更新给每个进程,然后每个进程单独更新模型。每个进程分别计算得到gradient_i,就需要最终把所有gradient加起来得到总的gradient,所以只要保证以下两点:(1)每个进程下模型初始化相同;

2024-01-01 16:30:05 358

原创 【研0日记】23.12.30

比如2机8卡,每个机子4卡,然后就会为每个gpu分配:node_0(gpu0,gpu1,gpu2,gpu3),node_1(gpu0,gpu1,gpu2,gpu3)。其实这个ddp何to(device)我感觉有点分不清了,好像是说,ddp是在保证各个gpu的通信,参数、梯度啥的是一致的,差不多就这意思,如果没有这个只有to(device)的话,那就是各个gpu各跑各的,只是单纯地把模型和各个数据分别给每个gpu、每个gpu自己单独计算。然后其他就没啥了,优化器啥的都不需要分布式的设置。

2023-12-30 13:15:57 664 1

原创 【研0日记】23.12.29

看了一些,感觉他们的意思是有多少命令就会顺序执行这些命令,否则要让程序 “等待上一条命令执行结束” 再执行下一条命令,然后找到了一个wait命令,可以等待所有或者特定pid的后台任务执行结束后再执行下一条命令。但是,实际测试的时候,我自己搞了几个小的test,我感觉不用写这个wait就可以实现我想要的那个效果,他会执行完bash test1.sh之后再执行bash test2.sh。下午研究了一下shell,我是想实现预训练和训练先后自动跑,就不用我监督着他了,比如有一个run.sh。

2023-12-29 22:29:43 378 1

原创 【研0日记】23.12.28

然后我这个,kernel feature要先把通道数降到768(和clip一致),再和text embedding相乘得到class score。就是这个降通道数有点不知道用conv还是fc,我感觉还是应该要用conv(in_channel, clip_channel)而不是fc,接着应该也要再Norm一次、激活一次,但是就是这个Norm,线性层里用的是LN,我目前写的也是LN,就不知道会不会有什么影响。然后也就没什么要干了,要不就把开题报告写了,反正迟早要写,早写早完事。

2023-12-28 16:50:11 370 1

原创 【研0日记】23.12.27

但是之前这种代码的写法,也确实是个想法,并且还挺有意思的。新的这一次这个算法(还是假设100个kernel,2个gt),就是首先保留cost1,让他自己去选出来2个kernel去和gt对应(假设选出来k0对应gt0,k1对应gt1),这个部分和匈牙利匹配完全一样,但是我希望要有更多的匹配信息,让所有kernel都得到训练,于是在此基础上,保留k0—gt0、k1—gt1的匹配关系不变,其他的kernel(k2~k99)就按照他自己的类别去对应gt。下面第一张图就是原始匈牙利匹配,第二张图就是建立索引匹配。

2023-12-27 12:46:23 363 1

原创 【研0日记】23.12.26

首先第一个想法,之前不是两个cost做加权嘛,cost1是原来的匈牙利匹配cost,cost2是暴力匹配cost,但实际其实光cost1效果就挺好的,那就保留cost1,然后做完匹配之后,利用cost2把没匹配上的也加上,相当于求个并集,看看这样效果会不会好一点,据说dn-detr也有这样的操作?眼瞅着代码跑了几个小时,感觉效果没有之前那次好,差也差不太多,每次就差个零点几个点,唉难搞,一会还跟导会议,不知道该说点什么捏。干了一上午,代码终于能跑了,不知道效果怎么样,恰饭。聊完了,让我来记一下。

2023-12-26 14:54:43 709

原创 【研0日记】23.12.25

但是大家在分类头上做的创新感觉并不是很多,基本上都就是local feature过一个分类头得到类别,然后用匹配算法找到对应的gt再做loss,我这其实唯一的区别就是,人家得到local feature是还不知道他对应的gt是哪一个,所以要用匈牙利匹配找到对应gt(有可能找错),我这个就是事先就知道了对应gt是哪个(不会找错),仅此而已。主要是感觉,毕竟预训练过程中的分类头和knet是一样的,要做分类的话肯定不好乱动,不然结构都不一样预训练肯定就没作用。

2023-12-25 16:53:13 377

原创 【研0日记】23.12.24

分类损失前要有一个匈牙利匹配的步骤,就是根据match cost判读得到的prediction要跟哪个gt做损失,当然是相对于的pred和gt做损失才正确,我预测狗,当然就要和狗的gt做损失,而不是猫。有一个东西就感觉没用到,就是json的cls,在bbox划分feature map得到feature时,他其实就已经有类别信息了,就是他知道这是哪一类,因为我们有zero-shot inference得到的json,但是之前那样就相当于我还不知道这块feature的分类情况,后续再经过分类头去分类、做损失。

2023-12-24 16:24:48 363

原创 【研0日记】23.12.21

嘿嘿嘿嘿我踏马回莱纳!煞笔航飞动终于考完啦!历时一周重回科研农民工。收拾了一下桌面,然后之前买了个新键盘现在也用上了,太爽了,白色的超级酷不说,声音还很小,手感挺不错的。学长去考试了,我也不想干活了呜呜呜。明天去打本,今天多呆一会吧。

2023-12-21 16:00:33 348

原创 【研0日记】23.12.12

所以现在就是,有query embedding(qe)和clip embedding(ce),qe由于是在coco上训练的,所以有很强的pre-defined class的特征,而ce则是包含了整个图片的特征,不管新类旧类。首先他和昨天那篇方法上是一样的,base seg model + clip分类头,而且要解决的问题也是一样的,一个是重新训练图文匹配太不值当了,一个是使用现成的clip要如何平衡基础域和泛化域的问题,一个是把每个proposal都送进clip计算量太大了。不想干活啦,下午出去玩啦。

2023-12-12 13:51:36 32

原创 【研0日记】23.12.11

而且他的目标毕竟是zero-shot,没有annotation,所以就只能随机裁剪获得views,感觉可以加上annotation,比如说把gt mask裁剪出来作为每一个view,获得 {v}。右边就是一个分割头,采用groupvit,feature token加上可学习的group token,一层一层学习,最后得到一系列的group token {g},然后过transformer、pooling、mlp得到一个全局semantic feature z,这里都跟groupvit一模一样。

2023-12-11 12:14:38 107 1

原创 【研0日记】23.12.10

现在是早上11点半,实验已经都能跑了,就是不知道结果怎么样,希望能好吧。累了不想看paper,不知道干什么好。

2023-12-10 11:40:39 73 1

原创 【研0日记】23.12.09

左边是clip训练模式,拿两个 “全局” token做对比训练,但是太全局了,对分割任务不适配;右边就是实验,text和image相乘是探究text和image的匹配度,image和image相乘是探究image本身上下文的信息。这篇关于clip的理解还是很不错的,完了后续用了好几个数据集去训练clip,就相当于还是改了clip的特征空间了,我也不知道这种方式到底好不好。下午发现昨天跑的东西中断了,完了看了好久的mmdet代码,evaluate地方有个bug,但是估计也对训练结果没啥影响吧,就随便改改了。

2023-12-09 18:38:00 51

原创 【研0日记】23.12.08

狗环境配是配好了,但是分布式训练报错了,真烦,这咋搞,搜又搜不到。现在是下午3点半,好累,导来实验室了,感觉已经不行了。想死捏,今晚老子一定要狠狠玩乐。

2023-12-08 15:39:37 41

原创 【研0日记】23.12.07

完了还看了一篇这个《Open_Vocabulary_Semantic_Segmentation_With_Patch_Aligned_Contrastive_Learning》,这篇之前看了好几遍,没看下去hhh,感觉跟别的没啥区别,事实也确实比较简单,但没有之前想的那么烂。

2023-12-07 21:11:16 143

原创 【读研日记】开篇

嘿嘿嘿,从今天开始【2023.12.7】,本辣鸡打算开始写点日记。旨在记录当天学习到的东西,以及明天的计划,起到激励自己的作用。当然也不是真的 “日” 记,我没有那么勤奋。不过我估计很快我就懒得写了。

2023-12-07 17:53:44 47 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除