自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(7)
  • 收藏
  • 关注

原创 KIMI带我读论文-CVPR2024-《Unraveling Instance Associations: A Closer Look for Audio-Visual Segmentation》

Kimi: 这篇论文《Unraveling Instance Associations: A Closer Look for Audio-Visual Segmentation》由 Yuanhong Chen 等人撰写,发表于 CVPR 2024。论文主要关注音频-视觉分割(AVS)这一挑战性任务,该任务的目标是基于视听线索准确分割出发声对象。

2024-07-03 12:56:13 488

原创 KIMI带我读论文-CVPR2024-《Teeth-SEG: An Efficient Instance Segmentation Framework for Orthodontic...》

它利用正畸器械对牙齿施加特定方向的力,使牙齿逐渐移动,最终实现牙齿排列整齐,达到最佳的咬合功能,并改善面部区域的外观。具体来说,为了组合这两个模块,我们设计了一种独特的基于排列的上采样器,以确保在建立清晰的分割边界的同时保持高效率,同时使用多头自/交叉门控层来强调特定的语义,同时保持token嵌入之间的差异性。我们研究了2D口内图像的实例分割,这降低了数据收集和注释的要求,并更好地支持了大规模的流行病学筛查和自我检查。请注意,这里的翻译是基于论文内容的概述,具体的文献编号和引用细节需要根据原文进行核实。

2024-07-01 16:09:58 793

原创 KIMI带我读论文-CVPR2024-《Fusing Personal and Environmental Cues for Identification and Segmentation of..》

Kimi: 根据论文内容,虽然之前的研究中确实有探讨过第一人称(egocentric)和第三人称(exocentric)视角的视频理解,但这项工作所面临的特定任务——在第三人称视角中识别和分割佩戴第一人称相机的人——相对较少被探索。:首先,作者创建了一个新的数据集TF2023,它包含同步的第一人称和第三人称视角图像,以及相关的掩码和标签。:为了促进这一方向的研究,作者还提出了一个新的数据集TF2023,包含同步的第一人称和第三人称视角,以及相机佩戴者的掩码和将这些掩码与相应的第一人称视角相关联的标签。

2024-06-30 09:27:42 272

原创 KIMI带我读论文-CVPR2024-《BIOCLIP: A Vision Foundation Model for the Tree of Life》

文章指出,自然界的图像,尤其是由无人机、手机等设备拍摄的图像,正在成为生物学信息的重要来源。尽管计算机视觉技术在提取图像中的生物学相关信息方面取得了巨大进展,但大多数现有方法都是为特定任务设计的,不易适应或扩展到新问题、新环境和新数据集。作者提出了开发一个通用的生物图像视觉模型的需求,并为此创建并发布了TREEOFLIFE-10M,这是一个包含超过1000万张图像的大规模、多样化的机器学习数据集,涵盖了生命之树上的454,000个分类群。

2024-06-28 09:00:48 1460

原创 KIMI带我读论文-CVPR2024-《LaneCPP: Continuous 3D Lane Detection using Physical Priors》

基于深度学习的方法通过将问题视为像素空间中的分割任务[7, 11, 16, 26, 29, 33, 53],使用基于锚点[19, 41]的表示,或者作为网格结构上的的关键点[13, 15, 34, 45],取得了良好的结果。虽然以前的方法依赖于完全数据驱动的方法,我们介绍了一种新颖的方法LaneCPP,它使用了一个利用有关车道结构和道路几何的物理先验知识的连续3D车道检测模型。:提出了一种新的3D车道检测模型,该模型使用连续的3D车道表示,并结合了车道结构和道路几何的物理约束。

2024-06-27 10:23:04 578

原创 KIMI带我读论文-CVPR2024-《Token Transformation Matters: Towards Faithful Post-hoc Explanation for Vision 》

主题:尽管 Transformer 在各种计算机视觉应用中迅速流行起来,但对其内部机制的事后解释在很大程度上还未被探索。问题:现有的事后解释方法仅仅考虑了注意力权重,忽略了变换后的 token 中的关键信息,这无法准确说明模型预测背后的理由。方法:为了将 token 变换的影响纳入解释,作者提出了 TokenTM,一种新颖的事后解释方法,利用引入的 token 变换效果的测量。贡献。

2024-06-27 10:18:45 818

原创 KIMI带我读论文-CVPR2024-《Seeing the World through Your Eyes》

人眼的反射特性是我们周围世界信息的一个被低估的来源。通过成像一个移动人的眼着,我们可以通过眼睛中的反射捕捉到相机直接视线之外的场景的多个视图。在本文中,我们使用包含眼睛反射的肖像图像重建了超出相机视线的辐射场。这项任务具有挑战性,因为1) 准确估计眼睛姿势的难度;2) 虹膜纹理和场景反射的纠缠外观。为了解决这些问题,我们的方法联合优化了角膜姿势、描述场景的辐射场以及观察者的虹膜纹理。我们进一步提出了一个虹膜纹理的正则化先验,以提高场景重建质量。

2024-06-26 09:32:40 492 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除