人工智能-线性代数核心知识点

原创已于 2025-10-23 16:11:54 修改 · 587 阅读

CC 4.0 BY-SA版权

文章标签：

于 2025-10-23 16:09:18 首次发布

线性代数是AI中“数据存储与操作”的基础，核心载体为向量，矩阵，张量，对应不同维度的数据场景。

定义：1维数组（行向量1×n/列向量n×1），如 $[x1,x2,…,xn][x_1,x_2,\ldots,x_n]$
AI核心应用：
- 单样本特征（如1个文本的嵌入向量，1个用户的属性（年龄，性别，消费额））
- 神经网络神经元的输入/输出（单个神经元输入为向量，输出为标量）
必掌握的运算：向量加减，数乘，转置，L1/L2范数
范数补充：范数是衡量向量大小的一种工具。
L1范数定义：
- 对一个n维向量 $[w_1, w_2, \ldots, w_n]$ ，L1范数是向量各元素绝对值之和。
- 公式： $∣∣w∣∣1=∣w1∣+∣w2∣+…+∣wn∣||w||_1 = |w_1| + |w_2| + \ldots + |w_n|$
L2范数定义：
- 对于一个n维向量 $[w_1, w_2, \ldots, w_n]$ ，L2范数是向量各元素的平方和的平方根。
- 公式： $∣∣w∣∣2=w12+w22+…+wn2||w||_2 = \sqrt{w_1^2+w_2^2+\ldots+w_n^2}$

定义：2维数组（m行n列），如 $a_{11},a_{12}],[a_{21},a_{22}]]$ ,可看作“向量堆叠”
AI核心应用：
- 批量样本存储（如100个样本的特征组成100×n矩阵，行=样本数，列=特征数）
- 神经网络权重矩阵（全连接层 $\cdot W + b$ 中，w为 in_dim×out_dim权重矩阵，实现特征维度转换）
必掌握运算：矩阵加减、数乘、转置、乘法

定义：3维及以上数组，如 $[ba t c h, h e i g h t, w i d t h]$ ,可看作矩阵堆叠
AI核心应用：
- 高维数据表示（图片：4维 [batch, channel, H, W]；视频：5维 [batch, frame, C, H, W]）
- 大模型注意力权重（Transformer注意力矩阵:4维[batch,head,seq_len,seq_len]）
必掌握运算：张量广播机制（不同形状张量自动扩展）、维度变换（reshape/permute/squeeze,代码高频操作）

AI模型前向计算本质是“线性变换+非线性激活”，线性变换依赖以下运算：

规则：A（m×k）×B（k×n） = C（m×n），其中 C[i][j] = ΣA[i][k]·B[k][j]（行×列求和）
AI核心应用：
- 全连接层：输入X(batch×in_dim) × 权重W(in_dim×out_dim) = 输出Y(batch×out_dim)（特征维度转换）
- Transformer注意力：Query(batch×seq×d_k) × Keyᵀ(batch×d_k×seq) = 注意力得分矩阵(batch×seq×seq)
关键性质：不满足交换律，满足结合律（支持模型并行优化）