我在网络上搜索了很多关于AI的架构图之后,并没有找到理想的一个图示,于是借助于AI工具以及自己的一些认知,绘制人工智能架构图,并梳理其中的知识点。
希望对你也会有相应的帮助,制作不易,欢迎收藏、点赞、转发。
架构图中涉及56个行业名词,包括核心技术、支撑技术生态、系统与架构、AI应用技术、未来发展方向、伦理与安全6个部分。
人工智能是一个庞大的知识领域,也不是这56个专业术语所能概括的,但总归可以给大家一个框架性的认识。
梳理知识点和术语名词如下:(篇幅有点长,可以直接到文末,有福利。)
一、核心技术体系
1. 机器学习(ML:Machine Learning)
机器学习是通过数据训练模型实现预测/决策的算法框架,包括监督学习、无监督学习、半监督学习。
监督学习:基于标注数据训练分类/回归模型(如垃圾邮件分类、房价预测)。
无监督学习:发现数据潜在结构,自行生成监督信号(如聚类分析、降维、对比学习)。
元学习**(Meta-Learning):**学习如何快速适应新任务,即“学会学习”。
联邦学习(Federated Learning):分布式隐私保护训练。
在线学习**(Online Learning)**:模型实时更新以适应动态数据流。
2. 深度学习(DL:Deep Learning)
深度学习是基于多层神经网络的复杂数据处理技术,突破传统机器学习的局限性。包括:
Transformer:基于自注意力机制驱动的长文本处理通用架构(如GPT系列、BERT)。
扩散模型(Diffusion Model):通过逐步去噪生成高质量数据(如Stable Diffusion)。
MoE(Mixture of Experts):组合多个子模型提升性能(如Switch Transformer)。
SNN(脉冲神经网络):模拟生物神经脉冲时序的模型。
胶囊网络(Capsule Network):通过胶囊单元编码空间层次关系。
深度学习需海量数据与高性能算力支持,依赖GPU/TPU加速。
3. 自然语言处理(NLP)
**自然语言处理是让机器理解、生成人类语言的技术。**包括:
大语言模型(LLM):千亿参数级预训练模型(如GPT-4、PaLM)。
思维链(Chain-of-Thought):通过分步推理提升模型逻辑能力。
检索增强生成(RAG):NLP与知识库结合,提供检索与生成,提升答案准确性(如腾讯ima知识库)
指令****微调(Instruction Tuning**)**:通过任务指令调整模型行为。
多模态对齐(Multimodal Alignment):对齐文本、图像等跨模态语义
4. 计算机视觉(CV)
**计算机视觉是从图像/视频中提取信息的技术。**主要包括:
ViT(Vision Transformer):将Transformer应用于图像分类。
NeRF(神经辐射场):3D场景重建与渲染技术。
目标跟踪(Object Tracking):视频中持续追踪特定物体(如SiamFC)。
光流估计(Optical Flow):计算像素级运动矢量。
事件相机(Event Camera):基于动态视觉传感器的低延迟感知。
其核心任务是:
目标检测:YOLO算法实现实时物体定位。
图像分割:U-Net模型区分医学影像中的病灶区域。
人脸识别:FaceNet通过特征向量比对实现身份认证。
5. 强化学习**(RL)**
PPO**(近端策略优化)**:稳定策略梯度训练的算法。
模仿学习(Imitation Learning):从专家示范中学习策略。
多智能体强化学习**(MARL)**:多个智能体协作/竞争(如星际争霸AI)。
逆强化学习(Inverse RL**)**:从行为反推奖励函数。
6. 模型优化技术
知识蒸馏(Knowledge Distillation):大模型压缩为小模型(如DistilBERT)。
量化感知训练**(QAT)**:训练时模拟低精度计算。
动态网络(Dynamic Networks):根据输入调整模型结构(如SkipNet)。
**稀疏训练(**Sparse Training):训练时自动剪枝冗余连接。
二、支撑技术生态
1. 算力基础设施
芯片技术:
- GPU:NVIDIA A100/H100加速深度学习训练。
- TPU:谷歌专为TensorFlow优化的AI芯片。
- 类脑芯片:清华大学天机芯模拟人脑神经形态计算。
云计算:
AWS、阿里云提供弹性算力资源池。
2. 数据工程
数据工程主要是实现数据存储、清洗、标注与知识结构化。
数据标注:人工标注占比超70%,涵盖属性、框选、描点等类型。
数据增强:通过旋转、裁剪、加噪提升模型泛化能力。
关键技术包括:
数据版本控制(DVC),像Git管理代码一样管理数据和机器学习模型,记录数据集、特征、模型权重的版本变更。
自动化特征工程(FeatureTools),通过深度特征合成(Deep Feature Synthesis, DFS),从原始数据中自动提取时间、聚合、关系型特征。
3. 知识图谱
知识图谱构建,核心功能包括:
图结构****数据存储:以节点(实体)、边(关系)、属性三元组形式存储复杂关系数据。
高效关系查询:支持图遍历查询(如最短路径、社区发现),适用于社交网络、推荐系统。
语义推理:通过规则或机器学习发现隐含关系(如“A是B的同事,B是C的上司 → A与C可能存在间接关联”)。
工具有Neo4j、Amazon Neptune。
三、系统与架构
MCP(模型上下文协议,Model Context Protocol):标准化协议,定义AI模型与外部工具/数据交互的通用接口,规范多模型间上下文传递(如任务状态、数据格式),解决工具碎片化问题。支持分布式协作。
模型编排(Model Orchestration):动态调度多个模型完成复杂任务流。
服务网格(Service Mesh):管理微服务化AI模型间的通信。
2. 分布式****系统
参数服务器**(Parameter Server)**:大规模分布式训练架构。
All-Reduce算法:分布式训练中的梯度同步协议(如Ring All-Reduce)。
异构计算:CPU/GPU/TPU协同计算优化。
四、AI应用技术
生成式AI**(AIGC)****,**自动化内容生成(文本、图像、视频)。
- 文本生成:ChatGPT、Claude实现多轮对话与文案创作。
- 图像生成:Stable Diffusion、Midjourney基于扩散模型创作。
- 视频生成:Sora通过时空联合建模生成动态内容。
数字孪生(Digital Twin):物理实体的虚拟实时映射(工业4.0)。
AI for Science:科学发现中的AI应用(如AlphaFold预测蛋白质结构)。
AIOps:IT运维智能化(异常检测、根因分析)。
2. 智能体****与交互系统
*Agent(**智能体**)***:**具备自主感知-决策-行动能力的软件体或实体(如自动驾驶Agent、AI游戏NPC)。
具身智能(Embodied *AI**)*:物理世界中的机器人智能(如波士顿动力)。
多模态交互:融合语音、手势、眼动等多通道交互。典型应用:自动驾驶(激光雷达+摄像头+地图融合)。
3. 边缘与终端****AI
边缘智能指的是在终端设备(如手机、IoT设备)部署轻量化AI模型。
TinyML:超低功耗微控制器上的机器学习。
模型剪枝(Pruning):移除冗余参数以适配边缘设备。
神经形态计算(Neuromorphic Computing):类脑芯片上的高效推理(如Loihi芯片)。
典型应用:智能安防摄像头实时行为识别、工业传感器故障预测。
五、未来发展方向-AGI
*AGI(Artificial General Intelligence,通用人工智能)***,指具备与人类相当或超越人类的通用智能的AI系统。与当前专注于特定任务的弱AI(Narrow AI)**不同,AGI能够在不同领域间迁移知识、自主学习新技能,并具备解决复杂问题的通用认知能力。
AGI的核心特征:通用学习能力、抽象推理与逻辑、目标导向与自主决策、多模态感知与交互、自我意识与情感模拟。
AGI是人类智能的技术镜像,其实现将重新定义文明。尽管当前技术距离AGI仍有鸿沟,但多学科交叉(如脑科学、量子计算)正推动这一目标逼近。理解AGI的本质与挑战,不仅是技术问题,更是关乎人类未来的哲学命题。
六、伦理与安全技术
**隐私计算旨在实现数据“可用不可见”,在保护隐私的前提下完成计算任务,**是AI数据安全的核心技术之一。实现方式有:
**联邦学习(Federated Learning),**多个参与方(如医院、银行)在本地保留数据,仅上传模型参数(而非原始数据)进行联合训练。
**同态加密(Homomorphic Encryption),**允许直接对加密数据进行计算,结果解密后与明文计算一致。应用案例:用户加密上传医疗数据,云端直接计算疾病风险评分后返回结果。
**差分隐私(Differential Privacy),**在数据中注入噪声,使单个记录的变动不影响整体统计结果。应用案例:公开统计数据时添加噪声,防止通过数据反推个体身份。
2. AI对齐(Alignment)
AI对齐的目标是确保AI系统的行为符合人类价值观,避免失控或危害社会。
**价值对齐(Value Alignment),**将人类的抽象价值观(如公平、正义)转化为AI可理解的奖励函数。实现方式有:
- 逆强化学习(Inverse Reinforcement Learning, IRL):通过观察人类行为反推奖励函数。*
*
示例:训练自动驾驶系统时,通过人类驾驶数据推断“安全驾驶”的奖励规则。
- 人类反馈强化学习(RLHF):让人类对AI输出排序,训练奖励模型指导AI行为。*
*
案例:OpenAI使用RLHF微调ChatGPT,减少有害内容生成。
可解释性(Interpretability)
LIME**(Local Interpretable Model-agnostic Explanations)**:通过扰动输入数据,观察模型输出的敏感性,生成局部解释。示例:解释为何AI判定某医疗影像为“恶性”,指出关键病灶区域。
SHAP(Shapley Additive exPlanations):基于博弈论量化特征对模型输出的贡献。应用:金融风控模型中,解释某用户贷款被拒的主因(如收入不足而非种族因素)。
3. 内容安全与过滤
基于规则的过滤:关键词匹配、正则表达式匹配。
深度学习****模型:检测文本/图像中的暴力、色情内容(如Google的Perspective API)。
对抗训练:生成对抗样本强化模型鲁棒性。
如何学习大模型 AI ?
由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。
但是具体到个人,只能说是:
“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。
这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。
我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。
我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。
第一阶段(10天):初阶应用
该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。
- 大模型 AI 能干什么?
- 大模型是怎样获得「智能」的?
- 用好 AI 的核心心法
- 大模型应用业务架构
- 大模型应用技术架构
- 代码示例:向 GPT-3.5 灌入新知识
- 提示工程的意义和核心思想
- Prompt 典型构成
- 指令调优方法论
- 思维链和思维树
- Prompt 攻击和防范
- …
第二阶段(30天):高阶应用
该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。
- 为什么要做 RAG
- 搭建一个简单的 ChatPDF
- 检索的基础概念
- 什么是向量表示(Embeddings)
- 向量数据库与向量检索
- 基于向量检索的 RAG
- 搭建 RAG 系统的扩展知识
- 混合检索与 RAG-Fusion 简介
- 向量模型本地部署
- …
第三阶段(30天):模型训练
恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。
到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?
- 为什么要做 RAG
- 什么是模型
- 什么是模型训练
- 求解器 & 损失函数简介
- 小实验2:手写一个简单的神经网络并训练它
- 什么是训练/预训练/微调/轻量化微调
- Transformer结构简介
- 轻量化微调
- 实验数据集的构建
- …
第四阶段(20天):商业闭环
对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。
- 硬件选型
- 带你了解全球大模型
- 使用国产大模型服务
- 搭建 OpenAI 代理
- 热身:基于阿里云 PAI 部署 Stable Diffusion
- 在本地计算机运行大模型
- 大模型的私有化部署
- 基于 vLLM 部署大模型
- 案例:如何优雅地在阿里云私有部署开源大模型
- 部署一套开源 LLM 项目
- 内容安全
- 互联网信息服务算法备案
- …
学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。
如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。