生成式人工智能的往昔与当下，走进 Generative AI 的启蒙第一课

R科学与人工智能

已于 2024-08-09 16:01:48 修改

阅读量2k

点赞数 27

文章标签：人工智能生成式人工智能 AI AI写作 AI作画 chatgpt

于 2024-08-05 22:35:45 首次发布

本文链接：https://blog.csdn.net/2301_79425796/article/details/140938728

版权

生成式人工智能（Generative AI）是人工智能的一个重要分支，它通过学习大量数据生成新内容，如图像、文本和音频等。本文将介绍生成式人工智能的历史发展、核心技术以及在当下的应用场景，带你走进Generative AI的启蒙第一课。

一、人工智能（Artificial Intelligence）

人工智能（Artificial Intelligence, AI）的概念可以追溯到20世纪50年代，当时数学家和计算机科学家开始探讨如何让机器模拟人类智能。1956年，达特茅斯会议被认为是人工智能研究的正式起点。然而，生成式人工智能（Generative Artificial Intelligence, GAI）的发展历程当从20世纪60年代的诞生开始，到了今天，生成模型不仅限于文本生成，还扩展到图像生成、音乐生成和视频生成等领域。

从1940年代开始，科学家们在数学推理的基础上发明了可编程数字计算机，这一突破激发了他们对创建“电子大脑”的探索热情，为后续的人工智能发展奠定了坚实的基础。1956年，由约翰·麦卡锡等人组织的达特茅斯会议，正式标志着人工智能作为独立研究领域的诞生，参会者预测机器将在一代人内达到人类智能的水平。然而，1974年至1980年间，由于Lighthill报告的批判，人工智能研究经历了第一次“AI寒冬”，资金和热度骤减，但逻辑编程和常识推理等新观念仍在不断涌现，为未来指明了新的方向。

到了1980年代，随着专家系统的发展，人工智能迎来了复兴期，取得了里程碑式的成就。1997年，IBM的深蓝击败了国际象棋冠军加里·卡斯帕罗夫，成为这一时期的标志性事件。同样在1986年，恩斯特·迪克曼斯发明了第一辆自动驾驶汽车，进一步展示了人工智能的潜力。进入2010年代，机器学习和深度学习的崛起使得人工智能技术迅猛发展，成为各类应用的核心。如今，AI系统不仅能生成富有创意的回应，处理大规模数据，还能完成过去被认为无法实现的任务，推动了智能客服等领域的革命性进步。

在人工智能中，“人工”一词源自英文单词“artificial”。在日常用语中，“artificial”意为合成的，往往带有负面意味，意味着“人造物体仅仅是真实物体的次要形式”。但实际上，人造物体常常优于真实或者自然物体。“智能”（intelligence）指的是个体从经验当中学习、进行正确推理、记住重要信息，以及应对日常生活需求的认知能力。

史蒂芬•卢奇在《Artificial Intelligence》中认为，人工智能是由人（people）、想法（idea）、方法（method）、机器（machine）和结果（outcome）等要素构成的。首先，构成人工智能的核心是人。人拥有想法，并将这些想法转化为方法。通过算法、启发式方法、程序或计算核心的系统，这些想法得以表达。最终，我们获取了这些机器（程序）所产生的产物，称之为“结果”。每一个结果都能够依据其价值、效果和效率进行衡量。

二、生成式人工智能（Generative AI）

生成式人工智能（Generative AI）是人工智能的一个子集，是一种能够根据用户提示创建新内容的人工智能技术，包括文本、图像、音频和视频等。这一能力通过复杂的机器学习模型，尤其是称为生成模型的深度学习模型来实现。这些模型从大量的训练数据中学习模式和结构，能够生成与输入数据具有相似特征的原创内容。

其实，生成式人工智能的开始，我们可以从1960年代ELIZA的出现讲起。

1、（1960年代）的ELIZA的出现

Joseph Weizenbaum (Professor emeritus of computer science at MIT). Location: Balcony of his apartment in Berlin, Germany.

生成式人工智能的旅程始于约瑟夫·韦森鲍姆（Joseph Weizenbaum）在1966年开发的ELIZA开发。ELIZA的重要性不仅在于其技术成就；它是第一个以智能对话形式出现的程序之一，是现代聊天机器人（chatbot）的先驱，也是早期尝试解决图灵测试的著名案例。

ELIZA，这个名字取自乔治·萧伯纳的戏剧《皮格马利翁》中的纯真少女。ELIZA可以与用户进行聊天，使用韦森鲍姆自己创建的SLIP编程语言编写。该程序应用模式匹配规则来生成回复（这类程序现在被称为聊天机器人）。ELIZA由一个名为DOCTOR的脚本驱动，能够与人类进行对话，其对话风格令人惊讶地类似于富有同理心的心理学家。韦森鲍姆还模仿了心理治疗师卡尔·罗杰斯（Carl Rogers）的对话风格，后者引入了开放性问题，以鼓励患者更有效地与治疗师交流。

其实，刚开始的时候，韦森鲍姆开发ELIZA的初衷是探索人机交流的动态。但是，他发现尽管ELIZA并不真正理解用户与机器之间的对话，但它通过模式匹配和替换技术创造了理解的假象。然而用户对ELIZA的情感反应感到惊讶，许多人将人类般的特质归因于该程序。这种现象后来被称为“ELIZA效应”。

“ELIZA 效应”指的是人们在与看似智能的计算机程序交流时，倾向于赋予其超出实际能力的理解和智能感知。例如，当用户向 ELIZA 倾诉自己的烦恼时，即使回复只是一些模式化的语句，用户也可能会觉得得到了有意义的回应和理解。这种效应揭示了人们在与技术交互时，容易产生对技术智能程度的过高估计。

这促使韦森鲍姆深刻反思人工智能的影响及其误导人们对机器能力的潜在风险。韦森鲍姆的后续著作，特别是他的书《计算机的力量与人类的理性》（Computer Power and Human Reason），阐述了他对人工智能伦理问题的担忧，强调了人类判断与机器计算之间的区别。

为帮助大家更出色地掌握临床统计、数据挖掘以及人工智能建模的入门知识和应用，由于众多同学在计算机编程上经验欠缺，特此开设《R 探索临床数据科学》专栏。该专栏每周至少会定期更新三篇，直到整个专栏更新完成。每篇文章都在 5000 字以上，质量平均分高达 94 分。要提醒大家的是，每结束一个章节，专栏的优惠力度就会减小，当下正是订阅的最佳优惠时段，诚邀各位积极订阅！

专栏《R 探索临床数据科学》链接：https://blog.csdn.net/2301_79425796/category_12729892.html?spm=1001.2014.3001.5482

2、（1980年代–2000年代）深度学习的年代

1980年代至2000年代是深度学习的早期阶段，主要特点如下：这一时期主要关注神经网络的基本理论和算法发展，包括前馈神经网络和卷积神经网络等。在应用领域，深度学习算法开始在图像识别和自然语言处理等领域进行初步探索。然而，由于计算能力的限制，深度学习在这一时期的发展相对缓慢。1980年代个人计算机和大规模计算的普及为深度学习的发展奠定了基础。

然而，从2010年代至今，随着计算能力和数据存储的快速增长，深度学习开始大规模应用于各个领域。云计算和GPU等技术的快速发展为深度学习提供了强大的计算支持，促进了技术突破。深度学习的应用范围不断扩大，广泛应用于自动驾驶、医疗诊断、金融风险评估等领域。同时，深度学习算法也逐渐发展成多种类型，如递归神经网络和生成对抗网络等。

深度学习（Deep Learning）是机器学习的一个分支，是一种基于人工神经网络的数据表征学习算法。它的主要特点包括：多层结构，使用多层神经网络来处理数据，通过逐层提取特征来学习复杂的表示；自动特征提取，能够从原始数据中自动学习特征，无需人工设计；强大的学习能力，能够处理大规模数据，并在图像识别、语音识别、自然语言处理等领域取得突破性成果；多种网络架构，包括卷积神经网络（CNN）、循环神经网络（RNN）、深度置信网络（DBN）等，适用于不同类型的任务；高度非线性，通过多层非线性变换，能够学习和表示复杂的数据模式；端到端学习，可以直接从原始输入到最终输出进行学习，无需中间步骤。

3、（2014年-2017年）生成对抗网络的突破

伊恩·古德费洛（Ian Goodfellow）出生于1987年，在斯坦福大学获得了计算机科学的学士和硕士学位，导师是吴恩达。随后，他在蒙特利尔大学获得机器学习博士学位，导师是约书亚·本希奥和亚伦·库维尔。2014年，它引入了生成对抗网络（Generative adversarial network，GAN），这是生成式人工智能领域的一个里程碑。

GAN有两个核心组件：生成器（Generator）和判别器（Discriminator）。生成器负责生成假数据，试图欺骗判别器；判别器则负责区分真实数据和生成的假数据。在对抗训练过程中，生成器不断学习生成更逼真的数据，而判别器则不断提高识别真假数据的能力。两个网络相互竞争，不断改进，最终目标是生成器能够产生与真实数据无法区分的假数据，而判别器将无法准确区分真假数据，只能随机猜测（50%概率）。简单来说，这种创新的框架包括两个互相对抗的网络：一个生成内容，另一个评估内容，推动了更为逼真和复杂输出的创造。

GAN在多个领域有广泛应用，包括图像生成（创建逼真的图像、提高图像分辨率等）、数据增强（为机器学习模型生成训练数据）、3D模型生成（根据2D图像生成3D模型）和艺术创作（生成新的艺术作品）。GAN的优势在于能够更好地建模数据分布，生成清晰、锐利的图像，并且理论上可以训练任何类型的生成器网络，无需使用马尔可夫链反复采样。然而，GAN的训练过程不稳定，容易出现模式崩溃等问题，并且需要大量计算资源。

得益于GANs和深度学习技术的进步，生成式人工智能的领域蓬勃发展。这一时期见证了生成模型的多样化，包括用于文本和视频生成的卷积神经网络（CNNs）和循环神经网络（RNNs），以及用于图像合成的变分自编码器（VAEs）和扩散模型的出现。大规模语言模型（LLMs）的发展始于GPT-1，展示了前所未有的文本生成能力，标志着该领域的重大飞跃。

4、（2017年-至今）快速扩展期

现在的生成模型不仅限于文本生成，还扩展到图像生成、音乐生成和视频生成等领域。以GPT系列为代表的大规模语言模型在自然语言处理方面取得了显著进展，能够生成高质量的文本内容。这些模型的成功展示了生成式人工智能在多个领域的广泛应用潜力。

ChatGPT 4.0 展示了令人印象深刻的自然语言理解和生成能力，能够处理复杂的对话、回答问题、撰写文章以及生成创意内容。其核心优势在于能够生成连贯且上下文相关的文本，这使得它在各种应用场景中得到了广泛使用，从客户服务到内容创作，再到编程助手。

MidJourney是一个基于生成式人工智能的图像生成平台，专注于从文本描述生成高质量的图像。用户只需输入简短的文本描述，MidJourney就能生成相应的图像，展示出生成式人工智能在视觉内容创作中的强大潜力。MidJourney的出现使得非专业用户也能够轻松创作出复杂的图像，为艺术创作、设计和媒体制作提供了新的可能性。

在今天的高科技时代，回顾ELIZA的故事和GAI的发展历程，我们不仅能看到技术进步的轨迹，也能反思人工智能与人类社会之间不断演变的关系。虽然ChatGPT等现代模型在功能和复杂性上超越了ELIZA，但正是这种最早的尝试，开启了我们对智能机器无尽可能性的探索之路。

三、现在的生成式人工智能

现在，你可能已经在电子邮件或文本编辑器中的自动完成功能中遇到过生成式人工智能了，它可以帮助你自动完成以惊人的准确度预测你的句子结尾。这种变革性技术不仅仅是数据分析；它是在完全新的创造中注入生命，打破我们对机器所能实现的边界。静态、预编程响应的日子已经过去。生成式人工智能模型通过学习和适应，模仿人类观察、理解和创造的能力。这些模型通过分析大量的图像、文本、音频等数据集，破译定义每个领域的潜在模式和关系。凭借这些知识，它们不仅能模仿，还能超越模仿，生成完全新颖的内容，这些内容感觉新鲜、原创，并且常常与现实世界的内容非常相似。

生成式人工智能的应用范围广泛，涵盖了各个行业和领域。以下是一些典型应用：

1. 文本生成

生成式人工智能在文本生成领域表现尤为出色。通过大规模数据预训练，生成模型可以生成高质量的文本内容。

例如，文心大模型4.0在输入和输出阶段都进行知识点增强。一方面，对用户输入的问题进行理解，并拆解出回答问题所需的知识点，然后在搜索引擎、知识图谱、数据库中查找准确知识，最后把这些找到的知识组装进prompt送入大模型，准确率好，效率也高。另一方面，对大模型的输出进行反思，从生成结果中拆解出知识点，然后再利用搜索引擎、知识图谱、数据库，以及大模型本身进行确认，进而对有差错的点进行修正。

2. 图片生成

生成式人工智能在艺术和设计领域展现了巨大的创造力。通过学习大量的艺术作品和设计样式，生成模型可以创作出独特且富有创意的艺术作品。

Midjourney 是由位于美国加州旧金山的同名研究实验室开发的人工智能程序，由 Leap Motion 的创办人大卫·霍尔兹（David Holz）领导。它可以根据文本生成图像，于 2022 年 7 月 12 日进入公开测试阶段，用户通过 Discord 的机器人指令操作。其核心功能是把文本提示转换为图像，能生成涵盖建筑物、场景、艺术插画、写实照片和人物画等多种风格和主题的高质量图像。算法不断改进，相继发布了多个版本，第二版于 2022 年 4 月推出，第三版于 2022 年 7 月 25 日发布，第四版的 alpha 迭代版于 2022 年 11 月 5 日发布，第五版的 alpha 迭代版于 2023 年 3 月 15 日发布。

另外，Stable Diffusion是一个由Stability AI开发的文本到图像的深度学习模型，属于潜在扩散模型（Latent Diffusion Model, LDM）的一种变体。它能够根据用户提供的文本描述生成高质量的图像，广泛应用于艺术创作、设计和其他视觉内容生成领域。

3. 音乐创作

在音乐创作领域，生成式人工智能同样展现了惊人的潜力。通过学习大量的音乐数据，生成模型可以创作出风格多样的音乐作品。例如，Suno AI是一个生成式人工智能音乐创作平台，旨在让用户根据文本提示生成逼真的歌曲。自2023年12月20日上线以来，Suno已吸引了大量关注，以其创新的方法将音乐创作民主化，使从普通用户到专业艺术家都能轻松上手，无需任何乐器或深厚的音乐理论知识。

4. 视频生成

生成式AI视频生成是指利用人工智能算法创建视频内容的过程。这些系统可以从文本描述、图像或短视频剪辑等各种输入中生成视频。如Leonardo等工具可以将静态图像转换为短视频剪辑，用户可以调整运动强度等参数来自定义输出效果。Runway ML（Gen-2）等平台提供编辑现有视频或基于视频输入生成新内容的功能，可以延长剪辑、改变风格或向视频添加新元素等等。

Sora是一个能以文本描述生成视频的人工智能模型，由美国人工智能研究机构OpenAI开发。Sora这一名称源于日文“空”（そら sora），即天空之意，以示其无限的创造潜力。其技术基础是在OpenAI的文本到图像生成模型DALL-E上开发的。模型的训练数据既包含公开可用的视频，也包括专为训练目的而获授权的视频，但OpenAI没有公开训练数据的具体数量与确切来源。

OpenAI于2024年2月15日向公众展示了由Sora生成的多个高清视频，称该模型能够生成长达一分钟的视频。同时，OpenAI也承认了该技术的一些缺点，包括在模拟复杂物理现象方面的困难。《麻省理工科技评论》报道称演示视频令人印象深刻，但指出它们可能是经精心挑选的，并不一定能代表Sora生成视频的普遍水准。