CV论文--2024.2.27

最新推荐文章于 2024-04-26 14:23:07 发布

计算机视觉每日论文

最新推荐文章于 2024-04-26 14:23:07 发布

阅读量925

点赞数 17

文章标签：机器学习人工智能算法计算机视觉

本文链接：https://blog.csdn.net/u012854516/article/details/136313684

版权

1、Co-Supervised Learning: Improving Weak-to-Strong Generalization with Hierarchical Mixture of Experts

中文标题：共同监督学习：通过专家的分层混合提高弱到强的泛化能力

简介：本文提出了一种新的方法来解决在互联网规模数据预训练的强模型中，由于能力有限的监督者稀缺，导致其行为难以控制的问题。最近的研究表明，尽管存在监督噪声，但当强学生模型在特定目标上进行微调时，其性能可能会超过其弱教师。然而，这种从弱到强的泛化效果仍然受到限制，特别是在存在大能力差距的情况下。

本文提出了一种通过利用多样化的专业教师集合，而不是单一的通才教师，共同监督强学生来解决这一挑战的方法。我们的方法类似于经典的专家混合层次模型，具有两个组成部分，专门用于协同监督：（i）我们逐步交替进行学生训练和教师分配，利用强学生的增长来识别可行的监督；（ii）我们保守地强制执行教师-学生和局部-全局的一致性，利用它们之间的依赖关系来拒绝潜在的注释噪声。

我们通过在OpenAI从弱到强基准测试和其他多领域数据集上进行视觉识别任务的验证，证明了所提出的方法的有效性。我们的代码可在GitHub上获得：https://github.com/yuejiangliu/csl。

2、Gen4Gen: Generative Data Pipeline for Generative Multi-Concept Composition

中文标题：Gen4Gen：用于生成多概念组合的生成数据管道

简介：最近，文本到图像扩散模型在只进行少量训练的情况下能够学习和合成包含新颖、个性化概念的图像，例如用户自己的宠物或特定物品。本文解决了个性化文本到图像扩散模型领域内的两个相互关联的问题。

首先，目前的个性化技术无法可靠地扩展到多个概念，我们认为这是由于预训练数据集（例如LAION）中复杂场景和简单文本描述之间的不匹配所导致的。其次，在包含多个个性化概念的图像中，缺乏一种全面的指标来评估性能。这个指标不仅要评估个性化概念的相似程度，还要评估图像中是否存在所有概念，并且图像是否准确地反映了整体文本描述。

为了解决这些问题，我们引入了Gen4Gen，这是一个半自动的数据集创建管道，利用生成模型将个性化概念组合成复杂的构图，并附上文本描述。借助这个管道，我们创建了一个名为MyCanvas的数据集，可用于对多概念个性化任务进行基准测试。此外，我们设计了一个综合评估指标，包括两个分数（CP-CLIP和TI-CLIP），用于更好地量化多概念个性化文本到图像扩散方法的性能。

我们提供了一个简单的基准线，建立在Custom Diffusion之上，并使用经验提示策略，供未来研究人员在MyCanvas上进行评估。我们展示了通过提高数据质量和提示策略，可以显著提高多概念个性化图像生成的质量，而无需对模型架构或训练算法进行任何修改。

3、RoboEXP: Action-Conditioned Scene Graph via Interactive Exploration for Robotic Manipulation

中文标题：RoboEXP：通过机器人操作的交互式探索的动作条件场景图

简介：本研究旨在解决机器人在适应和处理未知环境任务时需要探索周围环境的问题。以前的研究提出了建立环境场景图的方法，但通常假设环境是静态的，忽略了需要主动交互的区域。这严重限制了机器人在家庭和办公环境中处理更复杂任务的能力。例如，在设置餐桌之前，机器人必须先探索抽屉和橱柜，以找到所有餐具和调料。

本研究引入了交互式场景探索的新任务，机器人能够自主探索环境并生成一个动作条件场景图（ACSG），以捕捉底层环境结构。ACSG考虑了低层信息，如几何和语义，以及高层信息，如场景中不同实体之间的动作条件关系。为此，我们提出了机器人探索（RoboEXP）系统，该系统结合了大型多模型（LMM）和显式记忆设计，以增强我们的系统功能。

机器人使用RoboEXP系统考虑探索对象的内容和方式，通过交互过程积累新信息，并逐步构建ACSG。我们以零样本方式在各种真实世界环境中应用了我们的系统，展示了它在探索和建模以前从未见过的环境方面的有效性。利用构建的ACSG，我们进一步展示了RoboEXP系统在处理涉及刚性、关节对象、嵌套对象（如玛特里奥什卡娃娃）和可变形物体（如布料）等各种实际操作任务中的有效性和效率。

计算机视觉每日论文

关注

17
点赞
踩
17

收藏

觉得还不错? 一键收藏
0
评论
CV论文--2024.2.27

为了解决这些问题，我们引入了Gen4Gen，这是一个半自动的数据集创建管道，利用生成模型将个性化概念组合成复杂的构图，并附上文本描述。我们的方法类似于经典的专家混合层次模型，具有两个组成部分，专门用于协同监督：（i）我们逐步交替进行学生训练和教师分配，利用强学生的增长来识别可行的监督；以前的研究提出了建立环境场景图的方法，但通常假设环境是静态的，忽略了需要主动交互的区域。：本文提出了一种新的方法来解决在互联网规模数据预训练的强模型中，由于能力有限的监督者稀缺，导致其行为难以控制的问题。
复制链接

扫一扫