ICML 2024 | 人物交互图像,现在更懂你的提示词了,北大推出基于语义感知的人物交互图像生成框架...

关注公众号,发现CV技术之美

本文转载自机器之心。

该论文的第一作者和通讯作者均来自北京大学王选计算机研究所的 MIPL实验室,第一作者为博士生徐铸,通讯作者为博士生导师刘洋。MIPL 实验室近年来在 IJCV、CVPR、AAAI、ICCV、ICML、ECCV 等顶会上有多项代表性成果发表,多次荣获国内外 CV 领域重量级竞赛的冠军奖项,和国内外知名高校、科研机构广泛开展合作。

人物交互图像生成指生成满足文本描述需求,内容为人与物体交互的图像,并要求图像尽可能真实且符合语义。近年来,文本生成图像模型在生成真实图像方面取得出了显著的进展,但这些模型在生成以人物交互为主体内容的高保真图像生成方面仍然面临挑战。其困难主要源于两个方面:一是人体姿势的复杂性和多样性给合理的人物生成带来挑战;二是交互边界区域(交互语义丰富区域)不可靠的生成可能导致人物交互语义表达的不足。

针对上述问题,来自北京大学的研究团队提出了一种姿势和交互感知的人物交互图像生成框架(SA-HOI), 利用人体姿势的生成质量和交互边界区域信息作为去噪过程的指导,生成了更合理,更真实的人物交互图像。为了全面测评生成图像的质量,他们还提出了一个全面的人物交互图像生成基准。

594cc3216b52299c42e2ccd490ab2853.png

  • 论文链接:https://proceedings.mlr.press/v235/xu24e.html

  • 项目主页:https://sites.google.com/view/sa-hoi/

  • 源代码链接:https://github.com/XZPKU/SA-HOI

  • 实验室主页:http://www.wict.pku.edu.cn/mipl

SA-HOI 是一种语义感知的人物交互图像生成方法,从人体姿态和交互语义两方面提升人物交互图像生成的整体质量并减少存在的生成问题。通过结合图像反演的方法,生成了迭代式反演和图像修正流程,可以使生成图像逐步自我修正,提升质量。

研究团队在论文中还提出了第一个涵盖人 - 物体、人 - 动物和人 - 人交互的人物交互图像生成基准,并为人物交互图像生成设计了针对性的评估指标。大量实验表明,该方法在针对人物交互图像生成的评估指标和常规图像生成的评估指标下均优于现有的基于扩散的图像生成方法。

方法介绍

f98aac55970b571666c5e734bd6b6f25.png

图 1:语义感知的人物交互图像生成方法框架图

论文中提出的方法如图 1 所示,主要由两个设计组成:姿态和交互指导(Pose and Interaction Guidance, PIG)和迭代反演和修正流程(Iterative Inversion and Refinement Pipeline, IIR)。

在 PIG 中,对于给定的人物交互文本描述5fc3e62be1b2c7765b00144beb62fb7d.png和噪声28ae28cca75f4add9dc935b5368cb146.png,首先使用稳定扩散模型(Stable Diffusion [2])生成7c99c19a4d21068c14ee93fcf5f86dc0.png作为初始图像,并使用姿态检测器 [3] 获取人类体关节位置d9f187e5b1989d007f4d0d4b5124d9af.png 和相应的置信分数 830a03e52d6a7a150ac350bacad90b77.png , 构建姿态掩码 1659a2fd4ee8df5abdfc69d8090fe68b.png 高亮低质量姿态区域。

对于交互指导,利用分割模型定位交互边界区域,得到关键点eb2d98acb89382a16fca2c6c1fd2b839.png和相应的置信分数61869a035958c0c4bb3d8bde35313a7c.png, 并在交互掩码e306bd1450fa1ddf75fdfc30dfb249d1.png中高亮交互区域,以增强交互边界的语义表达。对于每个去噪步骤,e0543e9bdb24f75b33da4af2d661ccff.png 和 a3ae7b73b8f87b08ca69f827e3ec7d32.png 作为约束来对这些高亮的区域进行修正,从而减少这些区域中存在的生成问题。此外, IIR 结合图像反演模型 N,从需要进一步修正的图像中提取噪声 n 和文本描述的嵌入 t,然后使用 PIG 对该图像进行下一次修正,利用质量评估器 Q 对修正后的图像质量进行评估,以 < 反馈、评估、修正 > 的操作来逐步提高图像质量。

姿态和交互指导

ea960a20816905150690216e56a23f23.png

图 2:姿势和交互指导采样伪代码

姿势和交互引导采样的伪代码如图 2 所示,在每个去噪步骤中,我们首先按照稳定扩散模型(Stable Diffusion)中的设计获取预测的噪声 ϵt 和中间重构 。然后我们在 上应用高斯模糊 G 来获得退化的潜在特征 和 ,随后将对应潜在特征中的信息引入去噪过程中。

89846af9856fa536c91fb02ffeca1011.png 和 c4d6bfee922f6355b6c9ad38fa60121c.png 被用于生成 d094720c5fe00ccc287b991168ae34d6.png 和f2eefee1a8c5347de88d8339f860de32.png,并在 059d30989051467282a914504fd2dc86.png 和 af9d6fb9c262944f98ce2fd06743c541.png 中突出低姿势质量区域,指导模型减少这些区域的畸变生成。为了指导模型改进低质量区域,将通过如下公式来高亮低姿势得分区域:

9149ea1b5be171fb5e94d3a830368477.png

其中 70abd1eff3fdf4dc85c28b3223f99a97.png,x、y 是图像的逐像素坐标,H,W 是图像大小,σ 是高斯分布的方差。d638baa287b1701aedf905f1b45471f8.jpeg 表示以第 i 个关节为中心的注意力,通过结合所有关节的注意力,我们可以形成最终的注意力图351a675682b1dd134b19e9051e1aa293.jpeg,并使用阈值将 87640ee248814e567bdbc6c9eed4dce1.png 转换为一个掩码 1aeb7fcb1e8dd300e7d0e32a198f2b56.png

其中 ϕt 是在时间步 t 生成掩码的阈值。类似地,对于交互指导,论文作者利用分割模型得到物体的外轮廓点 O 以及人体关节点 C,计算人与物体之间的距离矩阵 D,从中采样得到交互边界的关键点 d3785983a8035235d71f81dfeecafadf.png,利用和姿势指导相同的方法生成交互注意力 7d6ae83a63ee397dbeb090f4f48fae5d.png与掩码 2321214571dbfd4571c77f03508782d0.png,并应用于计算最终的预测噪声。

迭代式反演和图像修正流程

为了实时获取生成图像的质量评估,论文作者引入质量评估器 Q,用于作为迭代式 < 评估 + 修正 > 操作的指导。对于第 k 轮的图像de710aaeefbae1f73067add0deb92503.png ,采用评估器 Q 获取其质量分数ce8ef0186401d0e37689a06a7b36f1a5.jpeg ,然后基于 d833e663f9a2e60309b67782044709da.png 生成2da104f467b0cbeb98245b9d78d90337.png。为了在优化后保留bfaea0271b59c3abf6edf0560a7ec769.png 的主要内容,需要相应的噪声作为去噪的初始值。

然而,这样的噪声不是现成可得的,为此引入图像反演方法1ced2cbd07378b15ff2b1e5bb29bf522.png来获取其噪声潜在特征a703dd7b5110d9bdcf5f0a091f7b1a46.jpeg 和文本嵌入9bd7e7a88f34df74fedab2a2badc20f8.png,作为 PIG 的输入,生成优化后的结果74c9230921fda139d28afb202e738513.png

通过比较前后迭代轮次中的质量分数,可以判断是否要继续进行优化:当a99b7fdc84ff3a588a9b16c2ffce4c62.jpeg和 74c38ea0dfca83563b982ff67413bd53.jpeg 之间没有显著差异,即低于阈值 θ,可以认为该流程可能已经对图像做出了充足的修正,因此结束优化并输出质量分数最高的图像。

人物交互图像生成基准

4ab87ea464d651bed238c96c5ce51cd3.png图 3:人物交互图像生成基准(数据集 + 测评指标)

考虑到没有针对人物交互图像生成任务设计的现有模型和基准,论文作者收集并整合了一个人物交互图像生成基准,包括一个含有 150 个人物交互类别的真实人物交互图像数据集,以及若干为人物交互图像生成定制的测评指标。

该数据集从开源人物交互检测数据集 HICO-DET [5] 中筛选得到 150 个人物交互类别,涵盖了人 - 物体、人 - 动物和人 - 人三种不同交互场景。共计收集了 5k 人物交互真实图像作为该论文的参考数据集,用于评估生成人物交互图像的质量。

为了更好地评估生成的人物交互图像质量,论文作者为人物交互生成量身定制了几个测评标准,从可靠性 (Authenticity)、可行性 (Plausibility) 和保真度 (Fidelity) 的角度全面评估生成图像。可靠性上,论文作者引入姿势分布距离和人 - 物体距离分布,评估生成结果和真实图像是否接近:生成结果在分布意义上越接近真实图像,就说明质量越好。可行性上,采用计算姿势置信度分数来衡量生成人体关节的可信度和合理性。保真度上,采用人物交互检测任务,以及图文检索任务评估生成图像与输入文本之间的语义一致性。

实验结果

与现有方法的对比实验结果如表 1 和表 2 所示,分别对比了人物交互图像生成指标和常规图像生成指标上的性能。

be5a0c89e16e03f036db75e63f0493a7.png

表 1:与现有方法在人物交互图像生成指标的对比实验结果

38a24f2ce7fbad067f90227e598f31ae.png

表 2:与现有方法在常规图像生成指标的对比实验结果

实验结果表明,该论文中的方法在人体生成质量,交互语义表达,人物交互距离,人体姿态分布,整体图像质量等多个维度的测评上都优于现有模型。

此外,论文作者还进行了主观评测,邀请众多用户从人体质量,物体外观,交互语义和整体质量等多个角度进行评分,实验结果证明 SA-HOI 的方法在各个角度都更符合人类审美。

7d7bc939571e20eb987915a93c04694e.png

表 3:与现有方法的主观评测结果

定性实验上,下图展示了不同方法对同一个人物交互类别描述生成结果的对比。在上方的组图中,采用了新方法的模型准确表达了 “亲吻” 的语义,并且生成的人体姿势也更合理。在下方的组图中,论文中的方法也成功缓解了其他方法中存在的人体扭曲和畸变,并且通过在手与手提箱交互的区域生成手提箱的拉杆来增强 “拿手提箱” 这个交互的语义表达,从而得到在人体姿态和交互语义两方面都优于其他方法的结果。

e33c7d612ba15293776d08373f08579e.png

图 4:人物交互图像生成结果可视化

更多研究细节,可参考原论文。

参考文献:

[1] Rombach, R., Blattmann, A., Lorenz, D., Esser, P., and Ommer, B. High-resolution image synthesis with latent diffusion models. In Proceedings of the IEEE/CVF

Conference on Computer Vision and Pattern Recognition (CVPR), pp. 10684–10695, June 2022 

[2] HuggingFace, 2022. URL https://huggingface.co/CompVis/stable-diffusion-v1-4. 

[3] Chen, K., Wang, J., Pang, J., Cao, Y., Xiong, Y., Li, X., Sun, S., Feng, W., Liu, Z., Xu, J., Zhang, Z., Cheng, D., Zhu, C., Cheng, T., Zhao, Q., Li, B., Lu, X., Zhu, R., Wu, Y., Dai, J., Wang, J., Shi, J., Ouyang, W., Loy, C. C., and Lin, D. MMDetection: Open mmlab detection toolbox and benchmark. arXiv preprint arXiv:1906.07155, 2019. 

[4] Ron Mokady, Amir Hertz, Kfir Aberman, Yael Pritch, and Daniel Cohen-Or. Null-

text inversion for editing real images using guided diffusion models. arXiv preprint

arXiv:2211.09794, 2022. 

[5] Yu-Wei Chao, Zhan Wang, Yugeng He, Jiaxuan Wang, and Jia Deng. HICO: A benchmark for recognizing human-object interactions in images. In Proceedings of the IEEE International Conference on Computer Vision, 2015.

7668ed0dd5c6a9784734a347281a3c80.jpeg

END

欢迎加入「人物交互交流群👇备注:HOI

353af77e5de6b3c8a672dfc3f0e8bf72.png

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
项目:使用AngularJs编写的简单 益智游戏(附源代码)  这是一个简单的 javascript 项目。这是一个拼图游戏,也包含一个填字游戏。这个游戏玩起来很棒。有两个不同的版本可以玩这个游戏。你也可以玩填字游戏。 关于游戏 这款游戏的玩法很简单。如上所述,它包含拼图和填字游戏。您可以通过移动图像来玩滑动拼图。您还可以选择要在滑动面板中拥有的列数和网格数。 另一个是填字游戏。在这里你只需要找到浏览器左侧提到的那些单。 要运行此游戏,您需要在系统上安装浏览器。下载并在代码编辑器中打开此项目。然后有一个 index.html 文件可供您修改。在命令提示符中运行该文件,或者您可以直接运行索引文件。使用 Google Chrome 或 FireFox 可获得好的用户体验。此外,这是一款多人游戏,双方玩家都是人类。 这个游戏包含很多 JavaScript 验证。这个游戏很有趣,如果你能用一点 CSS 修改它,那就好了。 总的来说,这个项目使用了很多 javascript 和 javascript 库。如果你可以添加一些具有不同颜色选项的级别,那么你一定可以利用其库来提高你的 javascript 技能。 演示: 该项目为国外大神项目,可以作为毕业设计的项目,也可以作为大作业项目,不用担心代码重复,设计重复等,如果需要对项目进行修改,需要具备一定基础知识。 注意:如果装有360等杀毒软件,可能会出现误报的情况,源码本身并无病毒,使用源码时可以关闭360,或者添加信任。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值