自定义博客皮肤VIP专享

*博客头图：

点击选择上传的图片

格式为PNG、JPG，宽度*高度大于1920*100像素，不超过2MB，主视觉建议放在右侧，请参照线上博客头图

请上传大于1920*100像素的图片！

博客底图：

点击选择上传的图片

图片格式为PNG、JPG，不超过1MB，可上下左右平铺至整个背景

栏目图：

点击选择上传的图片

图片格式为PNG、JPG，图片宽度*高度为300*38像素，不超过0.5MB

主标题颜色：

RGB颜色，例如：#AFAFAF

Hover：

RGB颜色，例如：#AFAFAF

副标题颜色：

RGB颜色，例如：#AFAFAF

预览取消提交

自定义博客皮肤

-+

上一步保存

kabuto_hui的博客

学习是为了完善人生。追求卓越，成功就会出其不意的找上门！

kabuto_hui

CSDN认证博客专家 CSDN认证企业博客

码龄9年

人工智能领域优质创作者

158: 原创

1120: 周排名

5131: 总排名

79万+: 访问

: 等级

6869: 积分

7213: 粉丝

1237: 获赞

317: 评论

3467: 收藏

私信

关注

热门文章

分类专栏

最新评论

【大模型系列】一文看懂SAM大模型
m0_53176582: 明白了，感谢
【大模型系列】一文看懂SAM大模型
kabuto_hui: 你可以关注一下这篇博客的3.2节，关于twowaytransformer，第一层输入为：q = q_pe = point_embedding，k = image_embedding, k_pe = image_pe 第二层输入为：q = 第一层输出q, q_pe = point_embedding，k = 第一层输出k, k_pe = image_pe
【大模型系列】一文看懂SAM大模型
m0_53176582: 感谢作者大大回答，对于第二个问题还有一个小疑问，mask decoder中twoways transformer不是一共有两个吗，那么第二个的输入是什么呢，还是和第一个一样需要image embeding和output token和prompt token吗？
【大模型系列】一文看懂SAM大模型
kabuto_hui: 1、为什么mask的大小是256x256？因为SAM最后输出的mask大小就是256x256，他在训练过程中，其实是会把上一次得到的mask作为mask prompt去进一步优化分割边界。所以最后要求的mask prompt的大小也就是256的了。在实际使用过程中，其实也还是在原图上画mask prompt，进网络前会resize到256x256再输入的。 2、关于twoway transformer途中的紫色线我不确定你说的是哪一个，不过你可以关注图中每个attention上面的k，q，v的来源，你就知道了这个attention模块是谁跟谁在进行注意力了。
【大模型系列】一文看懂SAM大模型
m0_53176582: 请问为什么mask大小是256*256呢，不是应该和原始图像大小一致吗？另外，对于TwoWayTransformer的第二部分，是否是图中紫色的线加上output tokens和prompt token进行自注意呢？

最新文章

深度学习

关注

文章平均质量分 95

关注数：文章数：21 文章阅读量：51611 文章收藏量：386

作者: kabuto_hui

渡己亦渡人

展开