大模型的发展历史及简要介绍

最新推荐文章于 2025-03-20 10:46:23 发布

AI小白熊

最新推荐文章于 2025-03-20 10:46:23 发布

阅读量1.4k

点赞数 31

文章标签：人工智能 langchain java 面试开发语言 ai 大模型

本文链接：https://blog.csdn.net/2401_85325726/article/details/144784372

版权

前言

本章内容，我们将简要介绍大模型，其中的内容包含大模型的发展历史、大模型的特点、大模型底层架构Transformer的简单了解以及最后对于人工智能的思考。

人工发展历史

早期探索阶段（1940s-1950s）

人工智能的概念开始形成，早期的计算机科学家和数学家探索机器是否能够模拟人类智能。

重要事件：1956年，达特茅斯会议上首次提出“人工智能（Artificial Intelligence，简称AI）”这一概念，标志着人工智能学科的诞生。随后，人工智能领域取得了一系列令人瞩目的研究成果，如字符识别程序、学习功能的跳棋程序等，掀起了人工智能发展的第一个高潮

符号主义（1950s-1970s）

这一阶段的AI主要依靠符号处理和规则引擎，强调逻辑推理。

关键技术：

• 逻辑推理、专家系统（如DENDRAL和MYCIN）。
• 语言处理（如ELIZA，最早的聊天机器人）。

知识工程和专家系统（1970s-1980s）

随着计算能力的提升，专家系统开始流行，旨在模拟人类专家的决策过程。

关键事件：人工智能从理论研究走向实际应用，专家系统开始广泛应用于医疗、化学、地质等领域，实现了人工智能从一般推理策略探讨转向运用专门知识的重大突破，推动了人工智能应用发展的新高潮。

AI寒冬（1980s-1990s）

由于期望过高和技术限制，资金和研究兴趣减少，导致AI研究陷入低谷。

重要事件：随着人工智能应用规模的扩大，专家系统存在的问题逐渐暴露，如应用领域狭窄、缺乏常识性知识、知识获取困难等，导致人工智能的发展再次陷入低迷。‌

机器学习和数据驱动的AI（1990s-2010s）

随着计算能力和数据量的增加，机器学习（尤其是统计学习）开始兴起。

关键技术：

• 支持向量机、决策树、聚类方法等。
• 互联网的普及使得大规模数据集的获取成为可能。

深度学习的崛起（2010s-至今）

深度学习技术的突破使得AI在多个领域取得显著进展。

关键技术：

• 卷积神经网络（CNN）、递归神经网络（RNN）等。
• 大规模数据集和强大的计算资源（如GPU）的结合。

关键事件: 2012年，AlexNet模型的提出，标志着深度学习在计算机视觉领域的突破。2018年，BERT模型的提出，开启了自然语言处理领域的大模型时代。

大模型/通用人工智能（AGI）的探索（2020s-至今）

随着Transformer架构的横空出世，大模型技术取得迅猛的发展。

关键事件: 2022年11月30日，ChatGPT3.5发布。

关键技术：

• 自然语言处理大模型
• 计算机视觉CV大模型
• 多模态大模型

大模型简介

大模型通常指的是具有大量参数（具有数亿到数千亿参数的深度学习模型）的深度学习模型，这些模型在处理复杂任务时展现出显著的性能提升。

"大"模型层数

大模型的encoder或decoder的层数通常在几十层到几千层不等。

“大”参数数量

大模型通常具有数亿到数千亿个参数。例如：阿里巴巴推出的最新大模型 Qwen2-72B，其参数量为72B，即 72 billion（720亿）个参数。

"大"算力需求

大模型对算力和显存的要求也非常高，一般情况下：

• 推理：所需显存为参数量的2~3倍
• 训练：所需显存为参数量的5倍

例如，对于 LLaMA-2 70B 模型，推理需要 140 GB，训练需要 840 GB。

"大"数据规模

大型语言模型通常使用数十亿到数万亿个 token 进行训练。例如，GPT-3 使用了约 570 亿个 token 的数据集。

与红楼梦的比较: 红楼梦约 80万字，如果我们将其视为 800,000 tokens，

这意味着，使用 570亿个 token 的大模型相当于约 712,500 本红楼梦。

"大"电力需求

大模型的训练，特别是涉及大量参数的模型，需要巨大的算力支持，这直接导致了大量的电力需求。

例如，训练Open AI的GPT-3模型耗电量约为1.287吉瓦时，这相当于120个美国家庭一年的用电量。

AIGC生成式人工智能应用

大模型一般是通俗的叫法，其学术术语一般叫生成式人工智能（AIGC）,其目前的应用场景有：

• 文生文
• 文生图
• 文生视频

人工智能类型

在人工智能的类型中，判别式模型和生成式模型是两种不同的建模思想。 判别式

• 建模思想： $P (y ∣ x)$ ，即在给定输入 $x$ (上文) 的情况下，输出 $y$ (哪一类)的概率。

生成式

• 建模思想： $P (x, y)$ ，即同时考虑输入 $x$ (上文) 和输出 $y$ (追加内容)的概率。

判别式模型专注于类别之间的边界，适合分类任务；而生成式模型则关注数据的生成过程，是一种发明创造的过程。

思考

人类自从工业革命至今，历经三次革命：

• 工业革命：它使得人类的生产活动效率大大提高，在时间维度帮助人类实现了效率的飞跃。
• 电力革命：伴随着电力的发展以及电报、电话等通信工具的出现，在空间维度帮助人们实现了效率的飞跃。
• 信息革命：伴随着互联网技术的应用以及普及，催生了电子商务、社交媒体等新经济模式，改变了商业运作方式。这是在时间 和 空间维度同时进行了效率的提升。

那么，此时被誉为第四次工业革命的 人工智能 ，它会怎样改变我们的生产和生活呢？

零基础如何学习AI大模型

领取方式在文末

为什么要学习大模型？

学习大模型课程的重要性在于它能够极大地促进个人在人工智能领域的专业发展。大模型技术，如自然语言处理和图像识别，正在推动着人工智能的新发展阶段。通过学习大模型课程，可以掌握设计和实现基于大模型的应用系统所需的基本原理和技术，从而提升自己在数据处理、分析和决策制定方面的能力。此外，大模型技术在多个行业中的应用日益增加，掌握这一技术将有助于提高就业竞争力，并为未来的创新创业提供坚实的基础。

大模型典型应用场景

①AI+教育：智能教学助手和自动评分系统使个性化教育成为可能。通过AI分析学生的学习数据，提供量身定制的学习方案，提高学习效果。
②AI+医疗：智能诊断系统和个性化医疗方案让医疗服务更加精准高效。AI可以分析医学影像，辅助医生进行早期诊断，同时根据患者数据制定个性化治疗方案。
③AI+金融：智能投顾和风险管理系统帮助投资者做出更明智的决策，并实时监控金融市场，识别潜在风险。
④AI+制造：智能制造和自动化工厂提高了生产效率和质量。通过AI技术，工厂可以实现设备预测性维护，减少停机时间。
…
这些案例表明，学习大模型课程不仅能够提升个人技能，还能为企业带来实际效益，推动行业创新发展。