人工智能-线性代数核心知识点
1.基础:数据表示形式
线性代数是AI中“数据存储与操作”的基础,核心载体为向量,矩阵,张量,对应不同维度的数据场景。
1.1向量(Vector)
- 定义:1维数组(行向量1×n/列向量n×1),如[x1,x2,…,xn][x_1,x_2,\ldots,x_n][x1,x2,…,xn]
- AI核心应用:
- 单样本特征(如1个文本的嵌入向量,1个用户的属性(年龄,性别,消费额))
- 神经网络神经元的输入/输出(单个神经元输入为向量,输出为标量)
- 必掌握的运算:向量加减,数乘,转置,L1/L2范数
范数补充:范数是衡量向量大小的一种工具。
L1范数定义:
- 对一个n维向量 w=[w1,w2,…,wn]w = [w_1, w_2, \ldots, w_n]w=[w1,w2,…,wn],L1范数是向量各元素绝对值之和。
- 公式:∣∣w∣∣1=∣w1∣+∣w2∣+…+∣wn∣||w||_1 = |w_1| + |w_2| + \ldots + |w_n|∣∣w∣∣1=∣w1∣+∣w2∣+…+∣wn∣
L2范数定义:
- 对于一个n维向量 w=[w1,w2,…,wn]w = [w_1, w_2, \ldots, w_n]w=[w1,w2,…,wn],L2范数是向量各元素的平方和的平方根。
- 公式:∣∣w∣∣2=w12+w22+…+wn2||w||_2 = \sqrt{w_1^2+w_2^2+\ldots+w_n^2}∣∣w∣∣2=w12+w22+…+wn2
1.2 矩阵(Matrix)
- 定义 :2维数组(m行n列),如[[a11,a12],[a21,a22]][[a_{11},a_{12}],[a_{21},a_{22}]][[a11,a12],[a21,a22]],可看作“向量堆叠”
- AI核心应用:
- 批量样本存储(如100个样本的特征组成100×n矩阵,行=样本数,列=特征数)
- 神经网络权重矩阵(全连接层Y=X⋅W+bY = X \cdot W + bY=X⋅W+b中,w为 in_dim×out_dim权重矩阵,实现特征维度转换)
- 必掌握运算:矩阵加减、数乘、转置、乘法
1.3张量(Tensor)
- 定义:3维及以上数组,如[batch,height,width][batch,height,width][batch,height,width],可看作矩阵堆叠
- AI核心应用:
- 高维数据表示 (图片:4维
[batch, channel, H, W];视频:5维[batch, frame, C, H, W]) - 大模型注意力权重(Transformer注意力矩阵:4维
[batch,head,seq_len,seq_len])
- 高维数据表示 (图片:4维
- 必掌握运算:张量广播机制(不同形状张量自动扩展)、维度变换(reshape/permute/squeeze,代码高频操作)
2.核心运算:神经网络线性变换逻辑
AI模型前向计算本质是“线性变换+非线性激活”,线性变换依赖以下运算:
2.1矩阵乘法(Matrix Multiplication)
- 规则:A(m×k)×B(k×n) = C(m×n),其中
C[i][j] = ΣA[i][k]·B[k][j](行×列求和) - AI核心应用:
- 全连接层:输入X(batch×in_dim) × 权重W(in_dim×out_dim) = 输出Y(batch×out_dim)(特征维度转换)
- Transformer注意力:Query(batch×seq×d_k) × Keyᵀ(batch×d_k×seq) = 注意力得分矩阵(batch×seq×seq)
- 关键性质:不满足交换律,满足结合律(支持模型并行优化)
2.2逆矩阵与伪逆(Inverse & Pseudo-Inverse)
- 逆矩阵:方阵A满秩时存在A⁻¹,满足A·A⁻¹=I(单位矩阵)
- 伪逆:方阵不满秩/非方阵时,用A⁺近似逆矩阵,满足“最小二乘解”
- AI应用:线性回归参数解析解
W = (XᵀX)⁺XᵀY(小数据量无需梯度下降)
3.进阶属性:模型优化与特征提取关键
3.1 秩(Rank)
- 定义:矩阵线性无关行/列的最大数量,反映“有效维度”
- AI意义:秩低→信息冗余(易过拟合);大模型压缩(低秩矩阵近似权重,减少参数)
3.2特征值与特征向量(Eigenvalue & Eigenvector)
- 定义:A⋅v=λ⋅v(v!=0)A \cdot v = \lambda \cdot v(v!=0)A⋅v=λ⋅v(v!=0),λ\lambdaλ为特征值,v为特征向量(变换后方向不变,仅缩放)
- AI应用:
- PCA降维(取协方差矩阵前k个大特征值对应特征向量,保留核心信息)
- RNN稳定性分析(权重矩阵特征值模决定梯度是否爆炸/消失)
3.3 奇异值分解(SVD)
- 定义:A = U·Σ·Vᵀ(U/V正交,Σ对角矩阵,元素为奇异值)
- AI应用:数据降维、大模型注意力近似(加速推理)、图像压缩
3.4 内积与距离
- 内积:a·b = Σa_i b_i,衡量向量相似度(AI:Transformer点积注意力得分)
- 距离:
- 欧氏距离(L2):KNN/聚类
- 余弦距离:文本相似度匹配
4. 线性代数在AI中的核心场景映射
| 线性代数概念 | 对应AI模块 | 具体作用 |
|---|---|---|
| 向量/矩阵/张量 | 数据存储 | 单样本/批量样本/高维数据表示 |
| 矩阵乘法 | 全连接层/注意力机制 | 特征维度转换、注意力得分计算 |
| 特征值/SVD | PCA降维/模型压缩 | 数据降维、减少参数/计算量 |
| 内积/余弦距离 | 相似度匹配 | 文本嵌入匹配、注意力权重计算 |
1023

被折叠的 条评论
为什么被折叠?



