智源社区AI周刊No.107：英伟达推出Magic3D；Stable Diffusion2.0发布

智源社区

于 2022-11-26 12:00:53 发布

阅读量583

点赞数

文章标签：人工智能 3d stable diffusion 计算机视觉深度学习

本文链接：https://blog.csdn.net/BAAIBeijing/article/details/128059906

版权

汇聚每周AI热点，不错过重要资讯！欢迎扫码，关注并订阅智源社区AI周刊。

英伟达推出Magic3D，性能超过谷歌DreamFusion

近一段时间，让AI生成3D点云成为业界研究的重点。谷歌曾在9月提出DreamFusion，引起广泛关注。近日，英伟达提出了Magic3D，可以从文字描述中生成3D的AI模型。整个生成过程分为三个阶段，首先团队使用eDiff作为低分辨率图像先验，获得初始3D表示。之后通过反复的抽样和渲染，来训练和优化模型，并最终抽取出3D体素。之后，研究者采用扩散模型，对第一阶段获得的粗略模型进行抽样和渲染，优化为更高分辨率的图像。最终获得高分辨率的3D生成结果。

Magic3D实现了根据输入的问题获得较高分辨率的3D图像。同时，用户还可以对提示文本进行修改，实现对于生成3D图像的编辑和修改。

Stable Diffusion 2.0支持超分辨率，结合景深信息：专业图像生成AI再进一步

近日，Stablity AI发布了Stable Diffusion的2.0版本。在这一版采用了研究组织LAION研发的OpenCLIP模型。此外，2.0版本中包括高级Diffusion模型，现在可以沈城2048x2048甚至更高像素的图像。另一方面，研究者提出了Depth-to-Image Diffusion模型，可以推断输入图像的景深，利用提示文本生成新图像。

自从Stable Diffusion开放以来，短短数月已经成为全球最为火爆的AIGC工具，但从玩具到生产力工具，模型本身的性能成为了新的瓶颈。本次Stable Diffusion2.0的更新更偏向于常规的功能改进，但其未来的目标是明确的：进军专业领域，让更多业内人士能够依赖它的力量。

谷歌Pitchfork实现自动编写代码和修bug功能，已投入使用

近日，谷歌实验室（Google X）曝光了一项新的孵化项目——Pitchfork。该系统可以自动编写代码，并修改代码中的bug。目前该系统已经在实验室内部投入使用，能够降低开发成本。

代码模型是继预训练语言模型后研究机构关注的另一个重点领域。由于代码相比自然语言具有更为严格的结构，需要生成的代码更为精细准确，因此对于中小机构而言难度较高。2021年，GitHub联合OpenAI利用大量的开源代码数据训练了Codex模型，并以此研发了Copilot代码补全插件，目前已有超过一百万的用户。

代码模型对于生产力的提升，降低研发成本具有显著作用。据统计，在目前十几种流行编程语言中，有40%是依赖Copilot生成的，而GitHub预计，五年内开发人员将使用Copilot编写超过80%的代码。代码模型在解决复杂编程问题上也具有潜力，DeepMind研发的AlphaCode模型在Codeforces编程竞赛平台上的排名位于前54.3%，即击败了超过40%的人类参赛者。

社区活动