理解dual softmax

Undefined游侠

于 2024-09-10 18:35:54 发布

阅读量186

点赞数 2

文章标签：深度学习 pytorch 计算机视觉

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_19859865/article/details/142105716

版权

在lightglue中，通过dual softmax的使用，我们替换了superglue中的sinkhorn环节。

其具体操作如下：

基于来自图像A的[[1, n, 256])] 维度的特征描述子，以及来自图像B的[1, m, 256]的描述子，首先经过linear层的操作，将其转换为[1, n, 1] 和 [1, m, 1]的特征，对应下列函数中的z0和z1。然后，两张图片的特征向量经过einsum的操作 sim = torch.einsum("bmd,bnd->bmn", mdesc0, mdesc1)，得到了[1,n,m]的矩阵。然后，基于在两个维度的softmax和转秩操作，我们实现了dual softmax。

之后，我们将z0,z1的数值与dual softmax的数值相结合，并将最后一行，和一列做特殊的填充，我们就实现了lightglue中稍微有点特殊的dual softmax的操作。

def sigmoid_log_double_softmax(
    sim: torch.Tensor, z0: torch.Tensor, z1: torch.Tensor
) -> torch.Tensor:
    """create the log assignment matrix from logits and similarity"""
    b, m, n = sim.shape
    certainties = F.logsigmoid(z0) + F.logsigmoid(z1).transpose(1, 2)
    scores0 = F.log_softmax(sim, 2)
    scores1 = F.log_softmax(sim.transpose(-1, -2).contiguous(), 2).transpose(-1, -2)
    scores = sim.new_full((b, m + 1, n + 1), 0)
    scores[:, :m, :n] = scores0 + scores1 + certainties
    scores[:, :-1, -1] = F.logsigmoid(-z0.squeeze(-1))
    scores[:, -1, :-1] = F.logsigmoid(-z1.squeeze(-1))
    return scores

Undefined游侠

关注

2
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

Undefined游侠 CSDN认证博客专家 CSDN认证企业博客

码龄10年

86: 原创

1万+: 周排名

2万+: 总排名

3万+: 访问

: 等级

1326: 积分

363: 粉丝

462: 获赞

6: 评论

472: 收藏

私信

关注

热门文章

分类专栏

最新评论

数据结构与算法2 哈希表
CSDN-Ada助手: 算法技能树或许可以帮到你：https://edu.csdn.net/skill/algorithm?utm_source=AI_act_algorithm
EfficientAI Lab：大模型AWQ量化
weixin_46656063: 为什么做这个Scale操作呢？其实是为了减少量化损失，对于普通的权重量化，损失一般在于Round操作的舍入误差，一般浮点数的舍入值在0~0.5，平均误差就是0.25。而先scale再量化的公式如下，一般来说在对应的salient weight row乘上因子s并不会影响weight的极值，那么，而Round误差一般也是不变的，那么下式的Err相比于原先的Err会多出一个1/s，那么量化误差就变低。
Swin-Transformer论文阅读
CSDN-Ada助手: 你好，CSDN 开始提供 #论文阅读# 的列表服务了。请看：https://blog.csdn.net/nav/advanced-technology/paper-reading?utm_source=csdn_ai_ada_blog_reply 。如果你有更多需求，请来这里 https://gitcode.net/csdn/csdn-tags/-/issues/34?utm_source=csdn_ai_ada_blog_reply 给我们提。
VIT论文阅读： A Image is Worth 16x16 Words
CSDN-Ada助手: 你好，CSDN 开始提供 #论文阅读# 的列表服务了。请看：https://blog.csdn.net/nav/advanced-technology/paper-reading?utm_source=csdn_ai_ada_blog_reply 。如果你有更多需求，请来这里 https://gitcode.net/csdn/csdn-tags/-/issues/34?utm_source=csdn_ai_ada_blog_reply 给我们提。
EfficientAI Lab：大模型AWQ量化
cooper6666: 咨询一下，为什么现在awq只支持Int4量化，而不支持int3或者int8量化呢？

大家在看

最新文章

2024

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。