- 博客(7)
- 问答 (1)
- 收藏
- 关注
原创 trsnsUnet模型
这样,在后续的下游任务中,可以提取[class] token的表示作为输入的类别特征,用于分类、生成或其他的任务。通过在图像输入中添加[class] token,并将其与图像的特征进行关联,可以帮助模型学习到与类别相关的全局信息。输入从最开始的(24,3,224,224)变成了[24,1024,14,14]提取[class] token的作用是为模型提供关于整个输入序列或图像的全局信息,并针对任务特定的处理或决策提供更有代表性的特征。这有助于模型从整体上理解输入,并利用类别相关的信息来提高模型的性能。
2023-10-04 20:36:28
439
1
原创 FEELVOS: Fast End-to-End Embedding Learning for Video Object Segmentation讲解
给定一个测试视频和第一帧的groundtruth,抽取第一帧的特征向量然后从第二帧开始一帧一帧的过网络结构,抽取特征→(以上步骤是只进行一次的,以下步骤是对每个物体都进行一次的)与第一帧进行global matching、和前一帧进行local matching→通过Dynamic Segmentation Head→应用像素级的argmax选择前景对应的物体编号(即最终分割)。在将当前帧与第一帧进行匹配时,需要将当前帧的每个像素与第一帧的每个像素进行比较,因为随着时间的推移,物体可能会移动很多。
2023-09-25 18:13:14
203
1
原创 UNet++: A Nested U-Net Architecturefor Medical Image Segmentation论文详解
不同层次的特征,或者说不同大小的感受野,对于大小不一的目标对象的敏感度是不同的,比如,感受野大的特征,可以很容易的识别出大物体的,但是在实际分割中,大物体边缘信息和小物体本身是很容易被深层网络一次次的降采样和一次次升采样给弄丢的,这个时候就可能需要感受野小的特征来帮助.而UNet++就是拥有不同大小的感受野,所以效果好。对于剪枝:在深监督的过程中,每个子网络的输出都其实已经是图像的分割结果了,所以如果小的子网络的输出结果已经足够好了,我们可以随意的剪掉那些多余的部分。这也是对unet网络的一个很大改进。
2023-09-05 21:37:29
802
1
原创 AlexNet模型浅析
ReLU Nonlinearity,Training on Multiple GPUs,局部响应归一化(Local Response Normalization),重叠池化,减少过拟合 (Reducing Overfitting),Dropout,Qualitative Evaluations(定性评估)
2023-05-30 21:03:48
296
1
原创 深度学习第一周
后面查了很多资料,最后还是看B站沐神的学AI视频,看了前两节的安装教程,根据自己的需要安装了cuda,后面安装了GPU版本的pytorch。这里主要想列举一下两者的不同之处,或者是在torch中接触到,但在numpy中未接触到的知识点。索引、 view 是不会开辟新内存的,⽽像 y = x + y 这样的运算是会新开内存的,然后 将 y 指向新内存。在这个数据中,对于inputs中的类别值或者离散值,我们将“NaN”视为一个类别(负类),其他为正类。在拿到的数据里,经常有分类型变量的存在。
2023-04-24 16:05:53
153
3
空空如也
用c语言来解决这个问题
2021-11-04
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅