群函数-CSDN博客

原创何恺明大神代表之主干网络ResNet

最近的证据[41, 44]表明网络深度至关重要，而在具有挑战性的ImageNet数据集[36]上的领先结果[41, 44, 13, 16]都利用了“非常深”的[41]模型，深度从十六[41]到三十[16]不等。特别值得注意的是，在具有挑战性的COCO数据集上，我们获得了COCO标准指标（mAP@[.5，.95]）的6.0%增加，相对改进为28%。出乎意料的是，这种退化并非由过拟合引起，向适当深度的模型添加更多层次会导致更高的训练误差，正如[11, 42]所报道并且作者的实验证实的那样。

2024-01-25 13:50:22 1380

原创何恺明大神代表之实例分割Mask R-CNN

大神的方法简单而高效。作者希望文章简单而有效的方法能够作为一个坚实的基准，并有助于简化未来实例级别识别研究。（大道至简！！！！！参考文献：关注我，发现生活之美群函数以“二十七画生”做笔名征友，结识批志同道合的朋友，一起交流学习。

2024-01-23 15:35:28 1212

原创何恺明大神代表之目标检测RetinaNet

何恺明大神发现，在密集检测器的训练过程中遇到的极端前景-背景类别不平衡是检测性能不高的核心原因。作者提出通过重新塑造标准交叉熵损失，使其降低对分类正确的样本分配的损失，来解决这种类别不平衡。作者的焦点损失（Focal Loss）将训练集中在一组难例上，防止大量容易判断为负例的样本在训练期间压倒性地影响检测器。

2024-01-19 17:09:48 1026

原创何恺明大神代表之自监督学习MAE，简单高效。（凡人很难望其项背。。。）

与传统的自编码器不同，我们采用了一种不对称设计，允许编码器仅在部分观察到的信号（没有遮罩标记）上进行操作，并使用轻量级的解码器从潜在表示和遮罩标记中重构完整的信号。掩码自编码器的概念，是更一般的去噪自编码器的一种形式[58]，在计算机视觉中也是自然而适用的。然而，我们观察到（例如，图4），我们的遮罩自编码器推断出复杂而整体的重构，表明它已经学到了许多视觉概念，即语义。虽然在BERT中解码器可以是简单的（MLP）[14]，但我们发现在图像中，解码器的设计在确定学到的潜在表示的语义水平上起着关键作用。

2024-01-05 16:22:21 1257

原创人工智能到底是什么呢？（我也迷茫了）

人工智能（Artificial Intelligence，简称AI）是计算机科学和工程学中的一个领域，致力于开发能够执行类似于人类智能的任务的系统。这种智能系统能够模拟、仿效或执行一系列与智能相关的任务，如学习、推理、问题解决、感知、语言理解和自主决策等。推理和问题解决： AI系统能够推理、推断和解决问题，通过分析信息和运用先前学到的知识来做出决策。自主智能系统：更强大、更自主的智能系统，能够在不同环境中更灵活地适应和执行任务。可解释性AI：提高AI系统的透明度和可解释性，使其决策更易理解和接受。

2024-01-04 22:37:58 1096

原创即插即用模块！重温坐标注意力机制：助力分类/检测/分割涨点！

关注我，发现生活之美.工v号【群函数】

2024-01-04 00:07:33 2166

原创（10分钟速读）重温3D目标检测 PV-RCNN！（CVPR2020）

然后将关键点的学到的判别性特征聚合到具有多个感受野的RoI（感兴趣区域）-grid点上，以捕获更丰富的上下文信息，用于精细的提案精化。通常而言，基于网格的方法在计算上更为高效，但不可避免的信息损失降低了细粒度定位的准确性，而基于点的方法计算成本更高，但通过点集抽象[24]可以轻松实现更大的感受野。PV-RCNN的原则在于，基于体素的操作能够高效编码多尺度特征表示，并能生成高质量的3D提案，而基于PointNet的集合抽象操作保留了灵活感受野下的准确位置信息。将LiDAR扫描得到的点云数据用于建模和检测。

2024-01-02 21:20:50 2058

原创首个多模态查询目标检测大模型！ | NeurIPS 2023

与之前的固定类别集（通常由有限数量表示）相比，前述的文本查询具有代表广泛概念的优点，但也存在固有的不足之处，即描述细粒度不足 [4, 9, 32]。经验上，解决描述细粒度不足问题的一个简单解决方案是设计额外的文本描述，但存在三个明显的障碍：1）全面描述视觉细节很难 [52]，为大量类别构建文本描述是一项繁重的工作。在finetuning-free的设定下，MQ-Det对每个类别选用了5个视觉示例，同时结合类别文本进行目标检测，而现有的其他模型不支持视觉查询，只能用纯文本描述进行目标检测。

2023-12-29 09:22:35 2605

原创（5分钟速读！）中科院自动化所发布目标检测大模型-满足用户指定需求的迁移学习系统

设计良好的子网采样空间对网络的训练至关重要，在我们进行探索的过程中发现网络深度和输入图像分辨率是影响模型性能的核心因素，网络宽度是模型运行占用显存的关键因素。用户在本地下游任务中，能提供的有标签数据十分有限，已有的开源数据集虽然包含的数据类别十分丰富，数量也十分庞大，但是相同类别的数据存在域间差异，比如漫画图片中的鸟和自然场景中的鸟存在很大差异，直接通过类别使用开源数据集，只会对用户本地下游任务产生不利的影响，选取合适数据集，帮助下游任务是一项不小的挑战。GAIA在10余种数据集上取得了令人满意的结果。

2023-12-28 09:48:25 1489

原创轻量化视觉大模型再升级！（MobileSAMv2）

轻量化视觉大模型

2023-12-28 08:00:00 2205

原创高光谱图像作为信息隐藏的载体研究（这个方向的文献真少。。。）

创作不易，点赞收藏，谢谢！如有交流需要，请关注微信公众号“笔名二十七画生”！鉴于多数人未从事研究该领域，简单给大家介绍一下什么是高光谱图像？高光谱图像（Hyperspectral Image，HSI）是一种具有连续和高密度光谱信息的图像。与普通彩色图像不同，高光谱图像捕捉了物体在大量窄波段范围内的光谱反射或辐射信息。每个像素不仅包含红、绿、蓝等基本颜色通道，还包括数十甚至数百个光谱波段的信息，并且这些波段可以覆盖可见光、红外线和紫外线等范围。因此，这种细分的光谱信息使得高光谱图像对物体的材料

2023-12-26 18:30:49 800 1

原创视觉大模型提示微调（visual prompt tuning，2022ECCV）

在使用预训练的ViT骨干的跨不同领域的24个下游识别任务中，VPT击败了所有其他迁移学习基线，甚至在20个案例中超越了全面微调，同时保持了对于每个个别任务存储显著较少参数（不到骨干参数的1%）的优势（图1(c)）。借鉴最近在NLP中关于Prompting的进展 [50,48,45,51]，我们提出了一种新的简单而高效的方法来适应下游视觉任务的Transformer模型（图1(b)），即Visual-Prompt Tuning（VPT）。我们遵循原始的配置，例如，划分的图像补丁数量，是否存在[CLS]等。

2023-12-21 19:45:00 3384 2

原创 Visual Tuning【2023年5月】视觉大模型微调综述，建议慢慢品读。。。。

创作不易，点赞收藏，谢谢！如有交流需要，请关注微信公众号“笔名二十七画生”！摘要微调视觉模型在许多下游视觉任务中已被广泛证明具有很好的性能。随着预训练视觉基础模型的惊人发展，视觉微调跳出了标准的操作方式，即对整个预训练模型或仅对全连接层进行微调（目前绝大多数网络的操作是这样的，比如先在ImageNet数据集进行训练获得参数，然后去除全连接层迁移到下游任务比如目标检测与分割等进行微调）。相反，最近的进展通过更新较少的参数能够实现比对整个预训练参数进行微调更出色的性能，使边缘设备和下游应用能够重复使用部署在云上

2023-12-20 17:24:09 2134 1

原创 YOLO系列算法综述（两万余字讲述哪些你不知道的故事）

创作不易，点赞收藏，谢谢！如有交流需要，请关注微信公众号“笔名二十七画生”！摘要YOLO已经成为机器人、无人驾驶汽车和视频监控应用中的中心实时目标检测系统。我们对YOLO的演变进行了全面分析，从原始的YOLO到YOLOv8、YOLO-NAS和带有Transformers的YOLO，检查了每个迭代中的创新和贡献。我们首先描述了标准指标和后处理方法；然后，我们讨论了每个模型的网络架构和训练技巧的主要变化。最后，我们总结了YOLO发展的基本经验教训，并对其未来提出了展望，突出了增强实时目标检测系统的潜在研究方向。

2023-12-19 10:39:32 2705

原创图像隐写综述（适合小白入门，涉及基础知识、评价指标与前沿算法）

为了增加隐写的鲁棒性，提出 Hidden图像隐写方式，在网络训练的过程中加入了噪声层，模拟真实情景下含密图像传输过程中所遇到的噪声攻击、压缩等情况，将攻击后的图像放入解码网络中提取秘密信息．该网络考虑到含密图像的真实性、秘密信息提取的准确性、隐写的隐蔽性，进一步增强了隐写的鲁棒性，为后续隐写方法提升鲁棒性提供了思路。其主要新颖之处在于，在一个可逆的网络结构中，将图像显式建模为图像隐藏的反向过程，这意味着只需对网络进行一次训练，就可以得到隐藏和揭示的所有网络参数。（图像的表示有RGB,YUV等）；

2023-12-17 21:36:16 6452

原创遥感视觉大模型综述（近万字长文，包括但不限于遥感领域）

CLIP是一种基于对比学习的多模态模型，与CV中的一些对比学习方法如moco和simclr不同的是，CLIP的训练数据是文本-图像对：一张图像和它对应的文本描述，这里希望通过对比学习，模型能够学习到文本-图像对的匹配关系。与其他自动编码器一样，本文的方法有一个编码器，可以提取掩码图像的隐藏表示，然后用于重建掩码区域的原始信号。虽然大多数基础模型都是为了有效地处理各种视觉任务的RGB图像而定制的，但在光谱数据方面的研究存在明显的差距，光谱数据为场景理解提供了有价值的信息，特别是在遥感(RS)应用中。

2023-11-28 16:06:13 8525

原创 Advances in Deep Concealed Scene Understanding (伪装场景理解综述解读）

伪装场景理解是计算机视觉领域的一个研究热点，其目的是对伪装物体进行感知。在技术和应用方面的目前繁荣发展需要进行最新的调查。这可以帮助研究人员更好地了解全球CSU领域，包括当前的成就和仍然存在的挑战。本文有四个方面的贡献：（1）我们首次提出了针对CSU的深度学习技术的全面调查，包括分类、特定任务的挑战和正在进行的发展。（2）为了对最先进的技术进行权威的量化，我们为伪装目标分割提供了最大和最新的基准。

2023-09-05 10:43:13 506

qq_36101623的博客