ICML 2024｜北大推出基于语义感知的人物交互图像生成框架，人物交互图像，现在更懂你的提示词了

AI每天一点点

于 2024-08-09 16:52:19 发布

阅读量315

点赞数 7

分类专栏：计算机视觉深度学习程序人生文章标签：人工智能机器学习图像生成计算机视觉人物交互图像语义感知论文

本文链接：https://blog.csdn.net/Java_college/article/details/141065993

版权

程序人生同时被 3 个专栏收录

65 篇文章 1 订阅

订阅专栏

计算机视觉

33 篇文章 0 订阅

订阅专栏

深度学习

25 篇文章 1 订阅

订阅专栏

该论文的第一作者和通讯作者均来自北京大学王选计算机研究所的 MIPL实验室，第一作者为博士生徐铸，通讯作者为博士生导师刘洋。MIPL 实验室近年来在 IJCV、CVPR、AAAI、ICCV、ICML、ECCV 等顶会上有多项代表性成果发表，多次荣获国内外 CV 领域重量级竞赛的冠军奖项，和国内外知名高校、科研机构广泛开展合作。

人物交互图像生成指生成满足文本描述需求，内容为人与物体交互的图像，并要求图像尽可能真实且符合语义。近年来，文本生成图像模型在生成真实图像方面取得出了显著的进展，但这些模型在生成以人物交互为主体内容的高保真图像生成方面仍然面临挑战。其困难主要源于两个方面：一是人体姿势的复杂性和多样性给合理的人物生成带来挑战；二是交互边界区域（交互语义丰富区域）不可靠的生成可能导致人物交互语义表达的不足。

针对上述问题，来自北京大学的研究团队提出了一种姿势和交互感知的人物交互图像生成框架（SA-HOI）, 利用人体姿势的生成质量和交互边界区域信息作为去噪过程的指导，生成了更合理，更真实的人物交互图像。为了全面测评生成图像的质量，他们还提出了一个全面的人物交互图像生成基准。

实验室主页：http://www.wict.pku.edu.cn/mipl

论文代码已打包好，需要的关助工重号：学长论文指导发送：211 领取

SA-HOI 是一种语义感知的人物交互图像生成方法，从人体姿态和交互语义两方面提升人物交互图像生成的整体质量并减少存在的生成问题。通过结合图像反演的方法，生成了迭代式反演和图像修正流程，可以使生成图像逐步自我修正，提升质量。

研究团队在论文中还提出了第一个涵盖人 - 物体、人 - 动物和人 - 人交互的人物交互图像生成基准，并为人物交互图像生成设计了针对性的评估指标。大量实验表明，该方法在针对人物交互图像生成的评估指标和常规图像生成的评估指标下均优于现有的基于扩散的图像生成方法。

方法介绍

论文中提出的方法如图 1 所示，主要由两个设计组成：姿态和交互指导（Pose and Interaction Guidance, PIG）和迭代反演和修正流程（Iterative Inversion and Refinement Pipeline, IIR）。

姿态和交互指导

姿势和交互引导采样的伪代码如图 2 所示，在每个去噪步骤中，我们首先按照稳定扩散模型（Stable Diffusion）中的设计获取预测的噪声 ϵt 和中间重构。然后我们在上应用高斯模糊 G 来获得退化的潜在特征和，随后将对应潜在特征中的信息引入去噪过程中。

迭代式反演和图像修正流程 人物交互图像生成基准

考虑到没有针对人物交互图像生成任务设计的现有模型和基准，论文作者收集并整合了一个人物交互图像生成基准，包括一个含有 150 个人物交互类别的真实人物交互图像数据集，以及若干为人物交互图像生成定制的测评指标。

该数据集从开源人物交互检测数据集 HICO-DET [5] 中筛选得到 150 个人物交互类别，涵盖了人 - 物体、人 - 动物和人 - 人三种不同交互场景。共计收集了 5k 人物交互真实图像作为该论文的参考数据集，用于评估生成人物交互图像的质量。

为了更好地评估生成的人物交互图像质量，论文作者为人物交互生成量身定制了几个测评标准，从可靠性 (Authenticity)、可行性 (Plausibility) 和保真度 (Fidelity) 的角度全面评估生成图像。可靠性上，论文作者引入姿势分布距离和人 - 物体距离分布，评估生成结果和真实图像是否接近：生成结果在分布意义上越接近真实图像，就说明质量越好。可行性上，采用计算姿势置信度分数来衡量生成人体关节的可信度和合理性。保真度上，采用人物交互检测任务，以及图文检索任务评估生成图像与输入文本之间的语义一致性。

实验结果

与现有方法的对比实验结果如表 1 和表 2 所示，分别对比了人物交互图像生成指标和常规图像生成指标上的性能。

实验结果表明，该论文中的方法在人体生成质量，交互语义表达，人物交互距离，人体姿态分布，整体图像质量等多个维度的测评上都优于现有模型。

此外，论文作者还进行了主观评测，邀请众多用户从人体质量，物体外观，交互语义和整体质量等多个角度进行评分，实验结果证明 SA-HOI 的方法在各个角度都更符合人类审美。

定性实验上，下图展示了不同方法对同一个人物交互类别描述生成结果的对比。在上方的组图中，采用了新方法的模型准确表达了 “亲吻” 的语义，并且生成的人体姿势也更合理。在下方的组图中，论文中的方法也成功缓解了其他方法中存在的人体扭曲和畸变，并且通过在手与手提箱交互的区域生成手提箱的拉杆来增强 “拿手提箱” 这个交互的语义表达，从而得到在人体姿态和交互语义两方面都优于其他方法的结果。

更多研究细节，可参考原论文。

不方便下载的我已打包好

论文资料+论文指导发刊+kaggle组队+技术问题答疑

关注公重浩：学长论文指导发送211 领qu

研究生及SCI论文攻略包：1、SCI论文写作、投稿、修改助手、插图规范

2、SCI管理软件、英语写作辅助和润色、写作与画图必备神器

3、SCI 写作套路化模板（高级句型）

4、上千份八大主流神经网络及变体、大模型、AIGC等AI各方向论文及代码

5、写论文必备书籍

6、历年来及最新优秀顶刊论文合集

【毕业论文、SCI、CCF、中文核心、El会议】评职称、研博升学、本升海外学府

可指导区位

SCI一区/CCF A
SCI二区/CCF B
SCI三区/CCF C
SCI四区/EI会议

期刊会议（各大顶会）

CVPR、ICCV、ECCV ICML、NeurIPS ACL、NAACL EMNLP、AAAI COLING 等

AI每天一点点

关注

7
点赞
踩
8

收藏

觉得还不错? 一键收藏
0
评论
ICML 2024｜北大推出基于语义感知的人物交互图像生成框架，人物交互图像，现在更懂你的提示词了

针对上述问题，来自北京大学的研究团队提出了一种姿势和交互感知的人物交互图像生成框架（SA-HOI）, 利用人体姿势的生成质量和交互边界区域信息作为去噪过程的指导，生成了更合理，更真实的人物交互图像。共计收集了 5k 人物交互真实图像作为该论文的参考数据集，用于评估生成人物交互图像的质量。考虑到没有针对人物交互图像生成任务设计的现有模型和基准，论文作者收集并整合了一个人物交互图像生成基准，包括一个含有 150 个人物交互类别的真实人物交互图像数据集，以及若干为人物交互图像生成定制的测评指标。
复制链接

扫一扫

专栏目录