论文分享
xuxu1116
中国科学院大学 硕博连读 主要研究方向多模态算法 aigc生成技术,也会分享一下工程问题,因为一个合格的算法工程就是要算法和工程两手抓
展开
-
做自动驾驶的同学看过来:场景理解、辅助功能、导航、寻路、避障数据集
SANPO:一个大规模的以自我为中心的视频数据集,专注于户外环境中的密集预测。它包含在不同的户外环境中收集的立体视频会话,以及渲染的合成视频会话。我们希望 SANPO 的挑战性将有助于推动视频分割、深度估计、多任务视觉建模和合成到真实领域适应的最先进水平,同时支持人类导航系统。SANPO:第一个具有大规模密集全景分割和深度注释的人类以自我中心的视频数据集,有助于推动视频分割、深度估计、多任务视觉建模和合成到真实域适应任务发展,同时支持人类导航系统,需要进论文创新点群的,关注我私信我,进论文创新点群。原创 2023-11-22 10:12:26 · 341 阅读 · 0 评论 -
做医疗影像心脏方面的看过来:医学图像重建的心脏 MRI 数据集
为了解决这一差距,我们发布了一个数据集,其中包括来自 300 名受试者的多对比度、多视图、多切片和多线圈 CMR 成像数据。我们的目标是通过引入标准化评估标准并使研究界免费访问数据集来促进最先进的 CMR 图像重建的进步。本文发布了CMRxRecon数据集,包括来自 300 名受试者的多对比度、多视图、多切片和多通道 CMR 成像数据,还由经验丰富的放射科医生提供了所有受试者的心肌和心室的手动分割。代码地址:https://github.com/CmrxRecon/CMRxRecon/原创 2023-11-21 16:53:49 · 1039 阅读 · 0 评论 -
目标检测最新创新点: EMS-YOLO:首个用于目标检测的直接训练脉冲神经网络
为了解决这个问题,我们提出了 EMS-YOLO,一种用于目标检测的新型直接训练 SNN 框架,这是第一个使用代理梯度训练深度 SNN 进行目标检测而不是 ANN-SNN 转换策略的尝试。论文地址:https://openaccess.thecvf.com/content/ICCV2023/html/Su_Deep_Directly-Trained_Spiking_Neural_Networks_for_Object_Detection_ICCV_2023_paper.html。公众号:CV算法小屋。原创 2023-11-11 12:32:27 · 1130 阅读 · 1 评论 -
想水目标检测sci论文的同学看过来:第一个用于目标检测的扩散模型
本文提出了 DiffusionDet,这是一个新框架,它将目标检测制定为从噪声框到对象框的去噪扩散过程。在推理中,模型以渐进的方式将一组随机生成的框细化为输出结果。例如,在从 COCO 到 CrowdHuman 的零样本迁移设置下,使用更多框和迭代步骤进行评估时,DiffusionDet 实现了 5.3 AP 和 4.8 AP 增益。代码:https://github.com/ShoufaChen/DiffusionDet。论文下载链接:https://arxiv.org/abs/2211.09788。原创 2023-11-09 09:37:19 · 593 阅读 · 0 评论 -
小样本医学图像分割新方法:医疗影像的同学看过来
具体来说,支持图像的前景被分解为不同的区域,随后通过设计的区域原型学习(RPL)模块将其用于导出区域级表示。然后,我们引入了一种基于双向消除机制的新型原型表示去偏(PRD)模块,该模块通过自支持、多方向自去偏(MS)块和支持查询来抑制区域表示的干扰, 交互式去偏 (ID) 模块。PAMI:一种小样本医学图像分割新网络,通过抑制区域原型的扰动来减轻类内变化的影响,在多个数据集上性能表现SOTA!代码地址:https://github.com/YazhouZhu19/PAMI。原创 2023-11-08 09:32:09 · 561 阅读 · 0 评论 -
做视频目标分割、人体姿态跟踪、语义part分割的同学看过来,李飞飞最新作品
SiamMAE 对随机采样的视频帧对进行操作,并对它们进行不对称屏蔽。通过在未来帧中掩码大部分 (95%) 的patch,同时保持过去的帧不变,SiamMAE 鼓励网络专注于对象运动并学习以对象为中心的表示。SiamMAE:一种从视频中进行表示学习的孪生掩码自编码器,在视频目标分割、人体姿态跟踪、语义part分割上性能表现出色单位:斯坦福大学(李飞飞、吴佳俊等人), 普林斯顿大学(邓嘉)论文下载链接:https://siam-mae-video.github.io/resources/paper.pdf。原创 2023-11-03 09:47:58 · 428 阅读 · 0 评论 -
自动驾驶的同学看过来:DriveLM:世界首个语言+自动驾驶全栈开源数据集
如下图所示,DriveLM提供了从物体识别、物体运动状态判断到物体未来运动轨迹预测、自车运动规划的完整逻辑链条,确保了整个决策过程中每一步的合理性和可解释性。数据集中的问答对主要可以分为三类:感知(Perception)、预测(Prediction)和规划(Planning)。预测部分询问车辆或行人的未来可能行为和状态;DriveLM:世界首个语言+自动驾驶全栈开源数据集,旨在借助大语言模型和海量自然语言数据集,构筑复杂场景下安全、精准、可解释的自动驾驶系统,突破现有自动驾驶推理能力上限,数据集已开源!原创 2023-11-02 15:28:40 · 1091 阅读 · 0 评论 -
如何零样本实现语义分割
同时,流行的方法仅利用可见的类别,这是一种极大的浪费,即忽略了存在但未注释的区域。为此,我们提出了 CLIPTeacher,这是一种新的学习框架,可以应用于各种每像素分类分割模型,而无需引入任何显式掩码proposer或改变 CLIP 的结构,并利用可见区域和忽略区域。具体来说,GLM 将图像编码器的密集特征与 CLS 令牌(即在 CLIP 中训练的唯一token)对齐,这是从 CLIP 模型中探测全局信息的简单但有效的方法。论文地址:https://arxiv.org/abs/2310.02296。原创 2023-10-30 09:15:07 · 318 阅读 · 0 评论 -
医学影像乳腺肿瘤分割的同学看过来:PDPNet:用于通用乳腺肿瘤分割的渐进式双先验网络
为了提高乳腺肿瘤分割模型的泛化能力,以及提高对较小尺寸、低对比度和不规则形状的乳腺肿瘤的分割性能,我们提出了一种渐进式双先验网络(PDPNet)来从动态增强的图像中分割乳腺肿瘤。结果表明,与次优方法相比,PDPNet的DSC、SEN、KAPPA和HD95分别提高了3.63%、8.19%、5.52%和3.66%。此外,通过消融,我们证明了所提出的定位模块可以减少正常组织的影响,从而提高模型的泛化能力。PDPNet:一种渐进式双先验网络,可以来从动态增强的图像中分割乳腺肿瘤,性能表现SOTA!原创 2023-10-28 10:21:15 · 469 阅读 · 0 评论 -
专攻yolo目标检测但是创新点缺乏的同学看过来
通过这样做,我们确定了在压缩 YOLOV5 时采用剪枝和量化方面的差距,并为该领域的进一步探索提供了未来方向。我们的研究还可以扩展到 YOLO 的新版本,因为在资源有限的设备上实现它们会带来同样的挑战,即使在今天仍然存在。本文针对的是那些对 YOLOV5 上的模型压缩方法的实际部署感兴趣的人,以及对探索可用于 YOLO 后续版本的不同压缩技术感兴趣的人。本文是第一篇对YOLOV5的模型压缩(特别是剪枝和量化)方法进行全面调研的工作,对方法进行分类并分析将其应用于 YOLOV5 的实际结果。原创 2023-10-27 16:40:01 · 201 阅读 · 0 评论 -
研究目标检测的同学看过来:超越YOLOv8!华为提出Gold-YOLO:高效实时
Gold-YOLO-N 在 COCO val2017 数据集上获得了出色的 39.9% AP,在 T4 GPU 上获得了 1030 FPS,比之前具有类似 FPS 的 SOTA 模型 YOLOv6-3.0-N 提高了 2.4%。Gold-YOLO:一种全新的实时目标检测器,提出一种GD新机制,通过卷积和自注意力操作来实现,增强了多尺度特征融合能力,并首次在 YOLO 系列中实现了 MAE 式的预训练,在所有模型尺度上实现了延迟和准确性之间的理想平衡,代码刚刚开源!单位:华为诺亚方舟实验室。原创 2023-10-26 10:41:56 · 342 阅读 · 0 评论