计算机视觉
文章平均质量分 89
Angelina_Jolie
这个作者很懒,什么都没留下…
展开
-
北理工提出 LTrack 双摄像头系统 | 专注于暗场景多目标跟踪,自动驾驶和夜间监控的福音!
低光照场景在现实世界应用中很普遍(例如自动驾驶和夜间监控)。最近,在各种实际用例中的多目标跟踪受到了很多关注,但在暗场景中的多目标跟踪却鲜少被考虑。在本文中,作者专注于暗场景中的多目标跟踪。为了解决数据集缺乏的问题,作者首先构建了一个低光照多目标跟踪(LMOT)数据集。LMOT提供了由作者的双摄像头系统捕获的、对齐良好的低光照视频对,以及所有视频的高质量多目标跟踪标注。然后,作者提出了一种低光照多目标跟踪方法,称为LTrack。作者引入了自适应低通下采样模块,以增强图像中除传感器噪声之外的低频成分。原创 2024-05-20 09:34:03 · 988 阅读 · 0 评论 -
CVPR24|指定参考图像的风格迁移!DEADiff:解耦图像风格和语义表示进行成对训练
本文提出了一种双解耦表示提取机制,分别获得参考图像的风格表示和语义表示,从学习任务的角度缓解了文本和参考图像之间的语义冲突问题。原创 2024-05-12 09:21:42 · 952 阅读 · 0 评论 -
BS-Diff | 扩散模型在骨抑制任务上的首次登场!
胸部 X 射线(CXR)是肺部筛查中常用的低剂量方式。然而,由于大约 75% 的肺部区域与骨骼重叠,这反过来又阻碍了疾病的检测和诊断,因此 CXR 的功效受到了一定程度的影响。作为一种补救措施,骨抑制技术已经问世。目前临床上使用的双能量减影成像技术需要昂贵的设备, 而且受试者会暴露在高辐射下。为了规避这些问题,人们提出了基于深度学习的图像生成算法。然而,现有方法在生成高质量图像和捕捉纹理细节(尤其是肺血管)方面存在不足。原创 2024-05-08 09:44:48 · 442 阅读 · 0 评论 -
AGI的核心对齐问题:能力泛化和急速左转
当前AI系统存在一定方法和策略来获得更大的模型泛化能力,然而对齐的策略依然是非泛化的,所以模型在获取更强大的泛化能力时往往会伴随着对齐属性的破坏,这可能导致未来AI在未预期的情况下表现出与我们价值观不符的行为,而且如果以当前的状态发展下去,这将是必然的。大多数人对“对齐”的理解是模糊的,而且有些人可能更倾向于以一种机械化的方式来理解动态系统,这可能导致设计出具有广泛功能但无法与人类价值和期望一致的AI系统。原创 2024-04-10 09:36:17 · 713 阅读 · 0 评论 -
CVPR 2024 | 拖拽P图又双叒升级了!DragNoise实现更快更准的拖拽编辑
DragGAN 由于其生成能力的限制, 对用户输入的图片编辑会严重失真,即使对于 GAN 生成的图片(下图中小猫),由于其优化的 latent code 为一维特征,缺少空间控制能力,会出现全局变化。2. 扩散语义传播:上一个步骤中优化的 bottleneck 特征包含了目标语义,因此与上面讨论的“middle-block replacement”操作相似,我们通过替换相应的 bottleneck 特征将优化后的 bottleneck 特征传播到所有后续时间步,从而避免了冗余的特征优化。原创 2024-04-07 15:12:13 · 602 阅读 · 0 评论 -
《Long-CLIP: Unlocking the Long-Text Capability of CLIP》
总的来说,Long-CLIP是一个改进的视觉-语言预训练模型,它通过知识保留的位置上插值和主要成分匹配策略,有效解决了原始CLIP模型在处理长文本输入时的限制。这一模型不仅在长文本图像检索任务中表现出色,而且在零样本图像分类任务中保持了与原始CLIP相当的性能,同时还能以即插即用的方式增强图像生成任务中的长文本处理能力。原创 2024-03-30 09:49:54 · 915 阅读 · 0 评论 -
ImageReward:文本到图像生成中的人类偏好学习
ImageReward和ReFL的概览。(上)ImageReward的标注和训练,包括数据收集、标注和偏好学习。(下)ReFL利用ImageReward的反馈直接优化后随机去噪步骤的扩散模型ImageReward解决方案由以下几个步骤组成:专业的大规模数据集ImageRewardDB:约13.7万个⽐较pairs,完全开源。通⽤的反映⼈类对于⽂本到图像偏好的模型ImageReward:文生图奖励模型之先锋,优于现有的⽂本-图像评分⽅法,例如CLIP、Aesthetic和BLIP;原创 2023-10-26 10:16:12 · 288 阅读 · 0 评论 -
医学图像开源数据集汇总
3D-IRCADb-01 数据库由 10 名女性和 10 名男性 75% 的肝肿瘤患者的 3D CT 扫描组成。20个文件夹对应20个不同的患者,可以单独下载也可以联合下载。下表提供了图像信息,例如肝脏大小(宽度、深度、高度)或根据 Couninaud 分割的肿瘤位置。它还表明肝脏分割软件可能遇到的主要困难是由于与邻近器官的接触、肝脏的非典型形状或密度,甚至图像中的伪影。原创 2023-08-11 19:32:06 · 251 阅读 · 0 评论 -
机器视觉常见问题
一般用分辨率这个名词来描述CCD芯片上的行列数。实际上,CCD芯片是一个抽样器件,它的最大抽样率由抽样定律决定,即抽样率必须高于奈奎斯特频率的2倍。抽样理论在一维时间信号中得到了广泛的使用,但并没有被完全的应用到CCD芯片的信号采样中。能够通过亚像素算术来提高CCD芯片的抽样率,理论就是把一个像素看作是由亚像素组成的子图像。通常,我们能够处理亚分辨率为10×10亚像素的图像。一个典型的例子就是决定一个斑点的重心。由于积分特性,原始像素位置误差与其本身输出相同。原创 2023-08-06 22:14:20 · 110 阅读 · 0 评论