每日一看大模型新闻（2024.1.24）扩散模型更懂复杂提示词！Pika北大斯坦福开源新框架；小红书推出新框架：负样本也能提升大模型的推理能力；爆火《幻兽帕鲁》被指用AI缝合宝可梦，开发者自曝传奇经历

本文链接：https://blog.csdn.net/liuxiuxiu3/article/details/136948498

本文报道了2024年1月24日的IT技术更新，包括北大、斯坦福与Pika合作的RPG框架提升扩散模型理解力，MDE模型DepthAnything在深度估计方面取得突破，以及小红书新框架利用负样本增强大模型推理。同时，商业动态中Canalys预测了2024年科技行业趋势，而《幻兽帕鲁》游戏引发AI创作争议。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

1.技术更新

1.1扩散模型更懂复杂提示词！Pika北大斯坦福开源新框架，利用LLM提升理解力

发布日期：2024-1-24

扩散模型更懂复杂提示词！Pika北大斯坦福开源新框架，利用LLM提升理解力

主要内容：北大、斯坦福和Pika联合开发了一款名为RPG的文本-图像生成/编辑框架。该框架利用多模态大模型的理解能力来增强扩散模型的组合能力和可控能力，无需额外训练即可让扩散模型拥有更强的提示词理解能力。面对超长、超复杂的提示词，RPG的准确性更高、细节把控更强，生成的图片更加自然。此外，RPG还可以通过提示词对生成的图像进行二次编辑。目前，该框架的代码已经开源，兼容各种多模态大模型和扩散模型主干网络。实验对比显示，RPG在色彩、形状、空间、文字准确等维度都超越了其他图像生成模型。

论文地址：https://arxiv.org/abs/2401.11708

代码地址：GitHub - YangLing0818/RPG-DiffusionMaster: Mastering Text-to-Image Diffusion: Recaptioning, Planning, and Generating with Multimodal LLMs (PRG)

1.2纪念碑谷式错觉图像都被「看穿」，港大、TikTok的Depth Anything火了

发布日期：2024-1-24

纪念碑谷式错觉图像都被「看穿」，港大、TikTok的Depth Anything火了

主要内容：Depth Anything 是一个新 MDE 模型，引起社交媒体热议。它能处理埃舍尔错觉艺术和提供高质量深度条件 ControlNet 图像视频编辑。理论上，基础模型可解决单目深度估计问题。在机器人、自动驾驶、VR 等领域有应用。构建数千万深度标签数据集困难，探索少。MiDaS 是开创性研究，训练 MDE 模型，数据覆盖局限。香港大学、TikTok 等机构研究者提出更实用方案。团队扩大数据集规模，收集自动标注约 6200 万无标注数据。降低泛化错误。保证数据扩展质量，探索两种策略：难度更高的优化目标，强制模型获取额外视觉知识；辅助监督机制，继承丰富语义先验。评估显示出色零样本能力，微调后获得 SOTA 结果。

论文地址：https://arxiv.org/pdf/2401.10891.pdf

项目主页：Depth Anything

演示地址：https://huggingface.co/spaces/LiheYoung/Depth-Anything

1.3剪映：小规模测试AI克隆音色功能

发布日期：2024-1-24

剪映上线5秒“AI克隆音色”，一堆AI公司又要进入慢性死亡了...

主要内容：字节跳动旗下的剪辑软件剪映最近开始对克隆音色功能进行小规模测试，大约有10%的用户获得了试用资格，可能在月底会全面推出。该功能目前只支持即时朗读随机文本进行录音输入，不支持上传音频进行克隆音色，只需录制大约5-10秒即可生成。

1.4小红书推出新框架：负样本也能提升大模型的推理能力

发布日期：2024-1-24

小红书推出新框架：负样本也能提升大模型的推理能力-腾讯云开发者社区-腾讯云

主要内容：该研究提出一种创新框架，通过充分利用负样本知识来提高大语言模型（LLMs）的推理能力。实验表明，在模型专业化过程中使用负向信息可以提高小模型处理复杂数学问题的能力。该框架包含三个关键步骤：负向协助训练（NAT），负向校准增强（NCE），动态自洽性（ASC）。这些方法分别优化了知识的提取、自我增强和解码策略，从而在整个训练和推理过程中充分利用负样本。实验结果验证了这种方法在数学推理任务中的有效性，并在泛化到其他数据集时也表现出色。

论文地址：https://arxiv.org/abs/2312.12832

1.5 Pika北大斯坦福开源新框架，利用LLM提升理解力

发布日期：2024-1-24

扩散模型更懂复杂提示词！Pika北大斯坦福开源新框架，利用LLM提升理解力-51CTO.COM

主要内容：Pika在社交平台X上宣布，Pika实验室与北京大学和斯坦福大学合作推出了开源的最新文本到图像生成和编辑框架RPG-DiffusionMaster。RPG在上下文理解、组合语义对齐和多轮对话理解等方面有显著的改进。

论文地址：GitHub - YangLing0818/RPG-DiffusionMaster: Mastering Text-to-Image Diffusion: Recaptioning, Planning, and Generating with Multimodal LLMs (PRG)

2.商业动态

2.1 Canalys：2024年全球科技行业十大趋势

发布日期：2024-1-24

Canalys预测：2024年全球科技行业十大趋势

主要内容：Canalys今天发布了2024年全球科技行业十大趋势预测。预测显示，到2026年，多数软件和硬件产品将集成生成式AI，并且不收取任何额外费用。预计到2025年，企业将推出性能超过100 TOPS的专用人工智能芯片。然而，由于人才短缺，预计这些芯片的性能将有70%无法得到充分发挥，尤其是在高性能、低功耗的模型优化、神经架构搜索以及为边缘设备调优的领域。

3.其他资讯

3.1爆火《幻兽帕鲁》被指用AI缝合宝可梦，开发者自曝传奇经历：是人类的奇迹

发布日期：2024-1-24

爆火《幻兽帕鲁》被指用AI缝合宝可梦，开发者自曝传奇经历：是人类的奇迹

主要内容：《幻兽帕鲁》是一款迅速爆红的游戏，4天内卖出600万份，最高180万人同时在线，玩家好评率高达93%。该游戏融合了收集神奇生物系统和开放世界游戏玩法，满足了全球玩家的期待。然而，关于游戏中角色形象的来源引发了争议，有人质疑开发商可能使用AI洗稿抄袭了宝可梦的形象。开发商Pocketpair的创始人溝部拓郎是AI技术的支持者，他在公司推广AI流程，并曾专门做过一款以AI绘画为主题的游戏。尽管有网友对比了帕鲁和宝可梦中的游戏角色，发现有相似之处，但并没有确凿的证据证明《幻兽帕鲁》使用了AI。此外，福布斯认为，至少这份奇迹更多还是属于人类的奇迹。