【AIGC】针对白皮书内容所做的整理（一）

最新推荐文章于 2024-07-25 16:02:48 发布

qq_41173370

最新推荐文章于 2024-07-25 16:02:48 发布

阅读量225

点赞数

文章标签： AIGC

来源：中国信息通信研究院和京东探索研究院

（一）发展历程与概念

一、发展历程

1、萌芽，但商用变现能力差，成本高昂

80年代末至90年代中，由于高昂的系统成本无法带来可观的商业变现，各国政府纷纷减少了在人工智能领域的投入，AIGC 没有取得重大突破。
1950年，艾伦·图灵（Alan Turing）提出“图灵测试”，以判定机器是否能够模仿人类的思维方式来“生成”内容，继而与人交互；
1957年，莱杰伦·希勒（Lejaren Hiller）和伦纳德·艾萨克森（Leonard Isaacson）通过将计算机程序中的控制变量换成音符，完成了历史上第一支由计算机创作的音乐作品——弦乐四重奏《依利亚克组曲(Illiac Suite)》；
1966 年，约瑟夫·魏岑鲍姆（Joseph Weizenbaum）和肯尼斯·科尔比（Kenneth Colby）共同开发了世界第一款可人机对话的机器人“伊莉莎（Eliza）”，其通过关键字扫描和重组完成交互任务；
80 年代中期，IBM 基于隐形马尔科夫链模型（Hidden Markov Model, HMM）创造了语音控制打字机“坦戈拉（Tangora）”，能够处理约 20000 个单词。

2、从实验性向实用性转变，但算法仍限于瓶颈，无法直接生成内容，应用有限

2006 年，深度学习算法取得重大突破，同时期图形处理器（Graphics Processing Unit, GPU）、张量处理器（Tensor Processing Unit，TPU）等算力设备性能不断提升，互联网兴起，数据规模快速膨胀，提供海量训练数据，使人工智能发展取得了显著的进步。
2007 年，纽约大学人工智能研究员罗斯·古德温装配的人工智能系统通过对公路旅行中的一切所见所闻进行记录和感知，撰写出小说《1 The Road》，作为世界第一部完全由人工智能创作的小说，其象征意义远大于实际意义，整体可读性不强，拼写错误、辞藻空洞、缺乏逻辑等缺点明显；
2012 年，微软公开展示了一个全自动同声传译系统，基于深层神经网络（Deep Neural Network，DNN）可以自动将英文演讲者的内容通过语音识别、语言翻译、语音合成等技术生成中文语音。

3、深度学习算法更新迭代，生成内容百花齐放

2014 年起，随着以生成式对抗网络（Generative Adversarial Network, GAN）为代表的深度学习算法的提出和迭代更新，AIGC 迎来了新时代，生成内容百花齐放，效果逐渐逼真直至人类难以分辨。
2017 年，微软人工智能少女“小冰”推出了世界首部 100%由人工智能创作的诗集《阳光失了玻璃窗》；
2018年，英伟达发布的 StyleGAN 模型可以自动生成图片，目前已升级到第四代模型 StyleGAN-XL，其生成的高分辨率图片人眼难以分辨真假；
2019 年，DeepMind 发布了 DVD-GAN 模型用以生成连续视频，在草地、广场等明确场景下表现突出；
2021 年，OpenAI 推出了 DALL-E并于一年后推出了升级版本 DALL-E-2,主要应用于文本与图像的交互生成内容，用户只需输入简短的描述性文字，DALL-E-2 即可创作出相应极高质量的卡通、写实、抽象等风格的绘画作品。

二、概念和内涵

国内产学研各界对于 AIGC 的理解是“继专业生成内容（Professional Generated Content, PGC）和用户生成内容（User Generated Content,UGC）之后，利用人工智能技术自动生成内容的新型生产方式”。在国际上对应的术语是“人工智能合成媒体（AI-generated Media 或 Synthetic Media）”，其定义是“通过人工智能算法对数据或媒体进行生产、操控和修改的统称”。综上所述，我们认为 AIGC 既是从内容生产者视角进行分类的一类内容，又是一种内容生产方式，还是用于内容自动化生成的一类技术集合。

1.发展背景层面

AIGC 的兴起源于深度学习技术的快速突破和日益增长的数字内容供给需求。
一方面，技术进步驱动 AIGC 可用性不断增强。在人工智能发展初期，虽然对 AIGC 进行了一些初步尝试，但受限各种因素，相关算法多基于预先定义的规则或者模板，还远远算不上是智能创作内容的程度。近年来，基于深度学习算法的AIGC 技术快速迭代，彻底打破了原先模板化、公式化、小范围的局限，可以快速、灵活地生成不同模态的数据内容。
另一方面，海量需求牵引 AIGC 应用落地。随着数字经济与实体经济融合程度不断加深，以及 Meta、微软、字节跳动等平台型巨头的数字化场景向元宇宙转型，人类对数字内容总量和丰富程度的整体需求不断提高。数字内容的生产取决于想象能力、制造能力和知识水平；传统内容生产手段受限于人力有限的制造能力，逐渐无法满足消费者对于数字内容的消费需求，供给侧产能瓶颈日益凸显。

2.技术能力层面

智能数字内容孪生，其主要目标是建立现实世界到数字世界的映射，将现实世界中的物理属性（如物体的大小、纹理、颜色等）和社会属性（如主体行为、主体关系等）高效、可感知地进行数字化；
智能数字内容编辑，其主要目的是建立数字世界与现实世界的双向交互。在数字内容孪生的基础上，从现实世界实现对虚拟数字世界中内容的控制和修改，同时利用数字世界高效率仿真和低成本试错的优势，为现实世界的应用提供快速迭代能力；
智能数字内容创作，其主要目标是让人工智能算法具备内容创作和自我演化的能力，形成的 AIGC 产品具备类似甚至超越人的创作能力。

3.应用价值层面

一方面，AIGC 能够以优于人类的制造能力和知识水平承担信息挖掘、素材调用、复刻编辑等基础性机械劳动，从技术层面实现以低边际成本、高效率的方式满足海量个性化需求；同时能够创新内容生产的流程和范式，为更具想象力的内容、更加多样化的传播方式提供可能性，推动内容生产向更有创造力的方向发展。
另一方面，AIGC 能够通过支持数字内容与其他产业的多维互动、融合渗透从而孕育新业态新模式，打造经济发展新增长点，为千行百业发展提供新动能。此外，2021 年以来，“元宇宙”呈现出超出想象的发展爆发力；作为数实融合的“终极”数字载体，元宇宙将具备持续性、实时性、可创造性等特征，也将通过 AIGC 加速复刻物理世界、进行无限内容创作，从而实现自发有机生长。