一、人工智能AI基础知识
- 人工智能元年:1956年
二、人工智能三大基础要素
要素 | 英文对应 | 核心内涵 | 现代扩展要素 |
---|---|---|---|
算力 | Computing Power | 硬件计算能力(GPU/TPU/集群)和计算效率(FLOPS) | 能效比 |
算法 | Algorithms | 模型架构设计(如Transformer)和优化方法(如Adam) | 训练策略 |
数据 | Data | 训练数据的规模、质量和多样性 | 数据合成技术 |
三、人工智能三大流派
流派 | 核心思想 | 技术代表 | 通俗比喻 | 典型例子 |
---|---|---|---|---|
符号主义 (Symbolism) | 认为智能源于对符号的逻辑运算 “思考即计算” | 专家系统、知识图谱、Prolog语言 | 像数学家按公式推导解题 | - 医疗诊断专家系统(输入症状输出病因) - 国际象棋AI(基于规则走棋) |
连接主义 (Connectionism) | 主张通过神经网络模拟人脑 “学习即调整连接权重” | 深度学习、神经网络、Transformer | 像婴儿通过观察学习认物体 | - ChatGPT的对话生成 - 人脸识别系统(从照片中识别人) |
行为主义 (Behaviorism) | 强调智能产生于与环境的互动 “智能即适应行为” | 强化学习、机器人控制 | 像训练小狗做动作给奖励 | - AlphaGo(通过对弈学习下棋) - 扫地机器人(碰撞后调整路径) |
流派 | 优势 | 局限性 |
---|---|---|
符号主义 | 可解释性强,适合规则明确的任务 | 难以处理模糊信息(如理解幽默) |
连接主义 | 擅长感知类任务(图像/语音) | 需要大量数据,像"黑箱"难以解释 |
行为主义 | 适合动态环境下的决策 | 训练成本高(如AlphaGo需数百万局) |
🚩当前主流AI(如大语言模型)本质是连接主义为主+符号主义增强的混合体。
四、人工智能三大阶段
人工智能的发展通常被划分为三个递进阶段:计算智能、感知智能和认知智能。这三个阶段代表了机器智能从基础数据处理到高级推理决策的演进过程。
未来趋势–认知智能将成为重点:
- 2030年前可能出现准通用人工智能(AGI),但全面类人思维仍需突破。
- 多模态融合(文本+图像+语音)将推动AI更接近人类认知。
阶段 | 能力 | 现状 | 代表技术 |
---|---|---|---|
计算智能 | 存储与计算 | 已成熟 | 分布式计算、神经网络 |
感知智能 | 环境感知与识别 | 广泛应用 | 计算机视觉、语音识别 |
认知智能 | 推理与决策 | 初步探索 | 大语言模型、知识图谱 |
目前,AI整体处于感知智能成熟期,并逐步向认知智能迈进,但距离真正的“类人思考”仍有差距。
五、人工智能AI学科 ➡ 分支:机器学习ML
- 监督:需要大量参数。在监督学习中常见的机器学习任务包括分类和回归
- 无监督:鼓励式,通过
内在相似性
实现物以类聚 - 半监督:大量未标记数据 + 少量有标记数据
- 强化:奖励机制反馈,对产生的动作进行评价
六、机器学习ML三大核心任务
基本定义对比表
任务类型 | 输入-输出关系 | 有无标签 | 典型应用场景 | 评价指标 |
---|---|---|---|---|
分类 | 离散标签预测(有限类别) | 需要监督(有标签) | 垃圾邮件识别、图像分类 | 准确率、F1-score、ROC-AUC |
回归 | 连续数值预测 | 需要监督(有标签) | 房价预测、股票趋势分析 | MSE、RMSE、R² |
聚类 | 数据自然分组(无预设类别) | 无监督(无标签) | 客户分群、异常检测 | 轮廓系数、Calinski-Harabasz |
经典算法对比:
算法 | 核心思想 | 适合场景 | 缺点 |
---|---|---|---|
K-means | 最小化簇内平方距离 | 球形分布数据 | 需预设K值 |
DBSCAN | 基于密度连通性 | 任意形状分布 | 对参数敏感 |
层次聚类 | 树状图合并/分裂 | 可解释性要求高 | 计算复杂度O(n³) |
现代趋势:端到端学习(如Transformer)正在模糊这些传统任务边界,例如:
- 目标检测 = 分类(是什么)+ 回归(在哪里)
- 语义分割 = 像素级分类
七、机器学习ML中的一种算法 ➡ 深度学习DL
基于无监督特征学习和特征层次结构,功能是模拟大脑。它分为输入层,隐藏层,输出层。隐藏层在训练时不断修正(修正依赖反向传播)模型权重(参数数量)和模型偏置。
相比起ML,DL优化了数据分析,建模过程的流程也缩短了。
深度学习的深度一般指深度神经网络,即神经网络的层数。
- 分类:CNN卷积神经网络(常用于自动驾驶), RNN循环神经网络
- 传播方式:前向传播,反向传播
- 架构:transformer框架(GPT在用)
八、transformer框架
transformer框架三模式对比表格
特性 | 编解码架构 | 纯编码架构 | 纯解码架构 |
---|---|---|---|
注意力方向 | Encoder: 双向 Decoder: 因果 | 双向 | 因果(单向) |
参数共享 | 不共享 | 无Decoder | 无Encoder |
典型输入输出 | 序列到序列 | 序列到标签 | 序列到序列 |
推理方式 | 条件生成 | 单次前向 | 自回归生成 |
最大上下文长度 | 受限于Encoder | 完全访问 | 受限于窗口大小 |
计算复杂度 | O(N²)+O(M²) | O(N²) | O(N²) |
注:N为输入序列长度,M为输出序列长度
🚩最新发展趋势(2023):
- 纯解码架构逐渐成为主流(如ChatGPT)
- 混合模式出现(如Encoder-Decoder with Decoder-Only pretraining)
- 窗口注意力机制突破长度限制(如FlashAttention)
九、大模型的分类:大模型本质上是概率模型
- 大语言模型Large Language Model:专注于NLP,比如GPT,常用transformer框架
- 多模态模型:未来趋势,计算机视觉,音频处理,视频处理
十、提示词工程:改进交互方式高效与AI沟通
- AI Agent与AI模型通信如何实现:
方法一:System prompt:定义AI的角色、性格、背景信息、语气
方法二:Function Calling:json统一输入输出格式
十一、检索增强生成(Retrieval-Augmented Generation)
结合信息检索与生成式语言模型,提高生成式模型的准确和相关性
- 检索:从外部知识库查找相关信息
- 生成:利用生成式语言模型GPT将检索到的信息整合到生成的回答中
十二、生成式语言模型
能生成自然语言文本的AI Model,是连贯有意义的句子或段落
十三、MCP
把公共Tool集中到一个MCP Server上,将AI Agent作为MCP Client,多个客户用一个服务
十四、自注意力机制(self-attention mechanism)
- Transformer架构核心组件,广泛用于NLP、CV和多模态,核心是让模型动态计算输入序列中不同位置的关联性,从而捕捉长距离依赖关系
- 计算输入序列中每个元素与其它所有元素的相关性(即注意力权重)生成一个加权表示
- 使用多头注意力捕捉不同子空间的语义信息
- 优点:长距离依赖、并行计算、可解释性
十五、生成式预训练模型
- 通过大规模无监督预训练学习通用表征,再通过微调或提示适应下游任务的模型
- 特点是预训练+微调范式,先在通用数据上训练,再针对具体任务调整
十六、推理(reasoning)
模型基于已有知识进行逻辑推理、因果分析的能力。体现为隐式推理和显式推理
- 隐式推理:预训练内化的知识,比如常识,直接有答案
- 显式推理:思维链、思维树等,需要推理或工具辅助的
十七、自然语言处理NLP
人工智能一个重要分支,用于解决与语言相关的各种问题,包括机器翻译、语音识别、情感分析、聊天机器人
十八、知识库
与LLM结合用的数据库
十九、嵌入 Embedding 即向量化,矢量化
将数据转换为数值向量的过程,将每文本项表示为一个较低维度的稠密向量,但仍保持关键信息,使语义上相似的词在向量空间中彼此接近
存起来的地方叫向量数据库
二十、训练大语言模型
-
步骤一:预训练 (pre-training)(transformer框架)
通过自监督学习捕捉数据分布 -
步骤二:SPT:监督与微调 (fine-tuning)
微调实现对预训练的模型进一步训练以便更适应特定环境,提高模型在特定任务的表现
到这一步只能满足价值观,无道德 -
步骤三:RLHF(Reinforcement Learning from Human Feedback):可干预、基于人类反馈的强化学习
满足人类价值观,有道德
二十一、工作流程
- 步骤一:分词化Tokenization与词表映射
- 步骤二:文本生成过程:预测下个token,这个token也加入序列预测,直到结束(自回归), 涉及预测推理何时结束/到达阈值结束
二十二、AI Agent智能体:基于LLM的、能完成具体工作、不止是能查数据的、智能体
比如AGI:通用人工智能
-
工作流程:LLM输入、思考➡记忆➡规划➡行动➡工具(外接计算器等API)➡Agent
- 记忆:通过深度学习、梯度下降技术,进而形成记忆
- Tools:预制工具,自定义工具
- Toolkits:做好的工具集
- 规划:分解为子任务+反思与改进
- 分解为子任务:通过LLM+提示词工程赋予这种思维,需要思考如何生成和审视已有工具
- 分为思维链(prompt技术)和思维树(启发式,BFS,DFS,前瞻回溯)
- 反思与改进:三思而后行
- ReAct模型:结合Reason与Act,LLM首先基于已有知识,审视工具,当发现已有知识不足以回答问 题,则调用工具,基于新的信息重复推理与行动,直到完成
- 记忆:通过深度学习、梯度下降技术,进而形成记忆
-
决策流程:观察➡感知➡规划➡行动(然后又回头到观察),这样一个循环代表一个任务
二十三、AI行业未来挑战:
- 数据隐私保护
- 技术依赖性
- 人机互动
二十四、实例介绍:Langchain架构
由通用大模型+特定知识库+数据分析构建而成
原理:
- 数据输入:去除无用符号,清洗句子
- 数据分析:使用分析引擎,引擎的工作如下
- 算法:文本分类模型,情感分析模型,主题建模
- 过程:准备,选算法,微调
- 数据输出:形式有图表、文字、互动界面等
二十五、实例介绍:ChatGLM对话语言模型
基于通用语言模型,和chatgpt类似
二十六、PyTorch和TensorFlow是目前最主流的两个深度学习框架
框架 | 创始机构 | 首次发布 | 当前归属 | 开源协议 | 主要开发团队 |
---|---|---|---|---|---|
PyTorch | Facebook AI Research (FAIR) | 2016年10月 | Linux基金会 (2022年后) | BSD-3-Clause | Meta (原Facebook) 核心团队 + 社区 |
TensorFlow | Google Brain | 2015年11月 | 仍属 Google | Apache 2.0 | Google 工程师 + 外部贡献者 |
技术生态对比
维度 | PyTorch | TensorFlow |
---|---|---|
企业背书 | Meta + 社区驱动 | 强Google官方支持 |
硬件优化 | 优先支持CUDA/NVIDIA | 深度优化TPU + 多硬件支持 |
部署工具链 | TorchScript + TorchServe | TF Lite + TF Serving |
研究论文占比 | 70%+ (2023年顶会) | 约15% (下降趋势) |
典型用户 | 学术机构、OpenAI、HuggingFace | Google产品、企业级生产环境 |
PyTorch:在学术界占主导地位,适合学术研究,小规模项目,NLP/CV前沿模型
import torch
import torch.nn as nn 神经网络模块
# 定义模型
class Net(nn.Module):
def __init__(self):
super().__init__()
self.fc = nn.Linear(10, 1) # 10维输入 -> 1维输出
def forward(self, x):
return torch.sigmoid(self.fc(x))
# 训练循环
model = Net()
optimizer = torch.optim.Adam(model.parameters()) 优化器
loss_fn = nn.BCELoss()
x = torch.randn(32, 10) # 输入数据
y = torch.randint(0, 2, (32, 1)).float() # 标签
output = model(x)
loss = loss_fn(output, y)
loss.backward() # 反向传播
optimizer.step()
TensorFlow:工业级部署,大规模生产环境,企业级应用
import tensorflow as tf
# 定义模型
model = tf.keras.Sequential([
tf.keras.layers.Dense(1, input_shape=(10,), activation='sigmoid')
])
# 编译与训练
model.compile(optimizer='adam', loss='binary_crossentropy')
x = tf.random.normal((32, 10))
y = tf.random.uniform((32, 1), 0, 2, dtype=tf.float32)
model.fit(x, y, epochs=10)