线性代数及应用【上】
学习笔记打卡:
线性代数及应用【上】:
第一章 矩阵变换
1.1 基变换与坐标变换
1.2 矩阵乘法
1.3 线性变换的矩阵
第二章 矩阵的四大基本空间
应用一 最小二乘法的线性拟合
3.0 向量范数
3.1 投影矩阵与投影向量
3.2 多元线性回归
线性代数及应用【下】:
第四章矩阵分解
4.0 特征值分解(EVD)
4.1 奇异值分解(SVD)
应用二 主成分分析(PCA)
参考资料链接
文章目录
第一章 矩阵变换
设 { α 1 , α 2 , ⋯ , α n } \{{\boldsymbol{\alpha}_1},\,{\boldsymbol{\alpha}_2},\,{\cdots},\,{\boldsymbol{\alpha}_n}\} {α1,α2,⋯,αn}和 { β 1 , β 2 , ⋯ , β n } \{{\boldsymbol{\beta}_1},\,{\boldsymbol{\beta}_2},\,{\cdots},\,{\boldsymbol{\beta}_n}\} {β1,β2,⋯,βn}是 R n \mathbb{R}^n Rn的两组基,若一向量 ξ = x 1 α 1 + x 2 α 2 + ⋯ + x n α n \boldsymbol{\xi}={x_1\boldsymbol{\alpha}_1}+{x_2\boldsymbol{\alpha}_2}+{\cdots}+{x_n\boldsymbol{\alpha}_n} ξ=x1α1+x2α2+⋯+xnαn,或 ξ = y 1 β 1 + y 2 β 2 + ⋯ + y n β n \boldsymbol{\xi}={y_1\boldsymbol{\beta}_1}+{y_2\boldsymbol{\beta}_2}+{\cdots}+{y_n\boldsymbol{\beta}_n} ξ=y1β1+y2β2+⋯+ynβn,则称 ξ \boldsymbol{\xi} ξ在基 { α 1 , α 2 , ⋯ , α n } \{{\boldsymbol{\alpha}_1},\,{\boldsymbol{\alpha}_2},\,{\cdots},\,{\boldsymbol{\alpha}_n}\} {α1,α2,⋯,αn}下的坐标为 ( x 1 x 2 ⋮ x n ) \begin{pmatrix}{{x}_1}\\{{x}_2}\\{\vdots}\\{{x}_n}\end{pmatrix} ⎝⎜⎜⎜⎛x1x2⋮xn⎠⎟⎟⎟⎞,在基 { β 1 , β 2 , ⋯ , β n } \{{\boldsymbol{\beta}_1},\,{\boldsymbol{\beta}_2},\,{\cdots},\,{\boldsymbol{\beta}_n}\} {β1,β2,⋯,βn}下的坐标为 ( y 1 y 2 ⋮ y n ) \begin{pmatrix}{{y}_1}\\{{y}_2}\\{\vdots}\\{{y}_n}\end{pmatrix} ⎝⎜⎜⎜⎛y1y2⋮yn⎠⎟⎟⎟⎞.
因此在描述坐标时要强调在某组基下.
1.1 基变换与坐标变换
记
A
=
(
α
1
α
2
⋯
α
n
)
\boldsymbol{A}=\begin{pmatrix}{\boldsymbol{\alpha}_1}&{\boldsymbol{\alpha}_2}&{\cdots}&{\boldsymbol{\alpha}_n}\end{pmatrix}
A=(α1α2⋯αn),
B
=
(
β
1
β
2
⋯
β
n
)
\boldsymbol{B}=\begin{pmatrix}{\boldsymbol{\beta}_1}&{\boldsymbol{\beta}_2}&{\cdots}&{\boldsymbol{\beta}_n}\end{pmatrix}
B=(β1β2⋯βn)分别为基
{
α
1
,
α
2
,
⋯
,
α
n
}
\{{\boldsymbol{\alpha}_1},\,{\boldsymbol{\alpha}_2},\,{\cdots},\,{\boldsymbol{\alpha}_n}\}
{α1,α2,⋯,αn}和
{
β
1
,
β
2
,
⋯
,
β
n
}
\{{\boldsymbol{\beta}_1},\,{\boldsymbol{\beta}_2},\,{\cdots},\,{\boldsymbol{\beta}_n}\}
{β1,β2,⋯,βn}对应的矩阵. 定义由基底
A
→
B
\boldsymbol{A}\to\boldsymbol{B}
A→B的过渡矩阵
P
=
(
p
1
p
2
⋯
p
n
)
\boldsymbol{P}=\begin{pmatrix}{\boldsymbol{p}_1}&{\boldsymbol{p}_2}&{\cdots}&{\boldsymbol{p}_n}\end{pmatrix}
P=(p1p2⋯pn),则基变换公式为
B
=
A
P
\boldsymbol{B}=\boldsymbol{A}\boldsymbol{P}
B=AP其中
P
\boldsymbol{P}
P可逆(其实
{
p
1
,
p
2
,
⋯
,
p
n
}
\{{\boldsymbol{p}_1},\,{\boldsymbol{p}_2},\,{\cdots},\,{\boldsymbol{p}_n}\}
{p1,p2,⋯,pn}也构成一组基). 对应的坐标变换公式为
x
=
P
y
\boldsymbol{x}=\boldsymbol{P}\boldsymbol{y}
x=Py
1.2 矩阵乘法
考虑可逆线性变换
A
x
=
y
\boldsymbol{Ax}=\boldsymbol{y}
Ax=y,其中
A
\boldsymbol{A}
A可逆. 令
A
\boldsymbol{A}
A
=
(
a
11
a
12
⋯
a
1
n
a
21
a
22
⋯
a
2
n
⋮
⋮
⋱
⋮
a
n
1
a
n
2
⋯
a
n
n
)
=\begin{pmatrix} {a_{11}}&{a_{12}}&{\cdots}&{a_{1n}}\\ {a_{21}}&{a_{22}}&{\cdots}&{a_{2n}}\\ {\vdots}&{\vdots}&{\ddots}&{\vdots}\\ {a_{n1}}&{a_{n2}}&{\cdots}&{a_{nn}}\\ \end{pmatrix}
=⎝⎜⎜⎜⎛a11a21⋮an1a12a22⋮an2⋯⋯⋱⋯a1na2n⋮ann⎠⎟⎟⎟⎞
=
(
α
1
α
2
⋯
α
n
)
=\begin{pmatrix}{\boldsymbol{\alpha}_1}&{\boldsymbol{\alpha}_2}&{\cdots}&{\boldsymbol{\alpha}_n}\end{pmatrix}
=(α1α2⋯αn),则
{
α
1
,
α
2
,
⋯
,
α
n
}
\{{\boldsymbol{\alpha}_1},\,{\boldsymbol{\alpha}_2},\,{\cdots},\,{\boldsymbol{\alpha}_n}\}
{α1,α2,⋯,αn}构成一组基. 再规定一组自然基
{
e
1
,
e
2
,
⋯
,
e
n
}
\{{\boldsymbol{e}_1},\,{\boldsymbol{e}_2},\,{\cdots},\,{\boldsymbol{e}_n}\}
{e1,e2,⋯,en},令
E
∈
R
n
×
n
\boldsymbol{E}\in \mathbb{R}^{n\times n}
E∈Rn×n为单位矩阵.
设向量
ξ
\boldsymbol{\xi}
ξ在自然基底下的坐标是
x
=
(
x
1
x
2
⋮
x
n
)
\boldsymbol{x}=\begin{pmatrix}{{x}_1}\\{{x}_2}\\{\vdots}\\{{x}_n}\end{pmatrix}
x=⎝⎜⎜⎜⎛x1x2⋮xn⎠⎟⎟⎟⎞. 则
A
x
=
(
x
1
α
1
+
x
2
α
2
+
⋯
+
x
n
α
n
)
\boldsymbol{Ax}=\begin{pmatrix}{x_1\boldsymbol{\alpha}_1}+{x_2\boldsymbol{\alpha}_2}+{\cdots}+{x_n\boldsymbol{\alpha}_n}\end{pmatrix}
Ax=(x1α1+x2α2+⋯+xnαn),令
ξ
′
\boldsymbol{\xi}'
ξ′在基
A
\boldsymbol{A}
A下的坐标是
x
=
(
x
1
x
2
⋮
x
n
)
\boldsymbol{x}=\begin{pmatrix}{{x}_1}\\{{x}_2}\\{\vdots}\\{{x}_n}\end{pmatrix}
x=⎝⎜⎜⎜⎛x1x2⋮xn⎠⎟⎟⎟⎞. 所以
A
x
\boldsymbol{Ax}
Ax实现了将向量
ξ
→
ξ
′
\boldsymbol{\xi}\to\boldsymbol{\xi}'
ξ→ξ′的映射,并保持了在各自基下的坐标均为
x
=
(
x
1
x
2
⋮
x
n
)
\boldsymbol{x}=\begin{pmatrix}{{x}_1}\\{{x}_2}\\{\vdots}\\{{x}_n}\end{pmatrix}
x=⎝⎜⎜⎜⎛x1x2⋮xn⎠⎟⎟⎟⎞. 令
y
=
(
y
1
y
2
⋮
y
n
)
\boldsymbol{y}=\begin{pmatrix}{{y}_1}\\{{y}_2}\\{\vdots}\\{{y}_n}\end{pmatrix}
y=⎝⎜⎜⎜⎛y1y2⋮yn⎠⎟⎟⎟⎞,即
A
x
=
(
y
1
e
1
+
y
2
e
2
+
⋯
+
y
n
e
n
)
\boldsymbol{Ax}=\begin{pmatrix}{y_1\boldsymbol{e}_1}+{y_2\boldsymbol{e}_2}+{\cdots}+{y_n\boldsymbol{e}_n}\end{pmatrix}
Ax=(y1e1+y2e2+⋯+ynen),所以
ξ
′
\boldsymbol{\xi}'
ξ′对应在自然基下的坐标为
y
=
(
y
1
y
2
⋮
y
n
)
\boldsymbol{y}=\begin{pmatrix}{{y}_1}\\{{y}_2}\\{\vdots}\\{{y}_n}\end{pmatrix}
y=⎝⎜⎜⎜⎛y1y2⋮yn⎠⎟⎟⎟⎞.
所以 A x = y \boldsymbol{Ax}=\boldsymbol{y} Ax=y实现从自然基下向量 ξ = ( x 1 x 2 ⋮ x n ) \boldsymbol{\xi}=\begin{pmatrix}{{x}_1}\\{{x}_2}\\{\vdots}\\{{x}_n}\end{pmatrix} ξ=⎝⎜⎜⎜⎛x1x2⋮xn⎠⎟⎟⎟⎞到新基 A \boldsymbol{A} A的坐标不变的映射 ξ ′ = ( x 1 x 2 ⋮ x n ) \boldsymbol{\xi}'=\begin{pmatrix}{{x}_1}\\{{x}_2}\\{\vdots}\\{{x}_n}\end{pmatrix} ξ′=⎝⎜⎜⎜⎛x1x2⋮xn⎠⎟⎟⎟⎞,且得到的 y = ( y 1 y 2 ⋮ y n ) \boldsymbol{y}=\begin{pmatrix}{{y}_1}\\{{y}_2}\\{\vdots}\\{{y}_n}\end{pmatrix} y=⎝⎜⎜⎜⎛y1y2⋮yn⎠⎟⎟⎟⎞是 ξ ′ \boldsymbol{\xi}' ξ′在自然基下的坐标.
例1 | 描述 R 2 \mathbb{R}^2 R2下的旋转矩阵 A \boldsymbol{A} A,经变换 A x = b \boldsymbol{Ax}=\boldsymbol{b} Ax=b把笛卡尔坐标下的列向量关于原点逆时针旋转 θ \theta θ. |
---|---|
解 | 等价于将自然基底
{
i
,
j
}
\{{\boldsymbol{i}},\,{\boldsymbol{j}}\}
{i,j}逆时针旋转
θ
\theta
θ得到基
{
e
1
′
,
e
2
′
}
\{\boldsymbol{e}'_1,\,\boldsymbol{e}'_2\}
{e1′,e2′} 令 A = ( e 1 ′ e 2 ′ ) \boldsymbol{A}=\begin{pmatrix}\boldsymbol{e}'_1&\boldsymbol{e}'_2\end{pmatrix} A=(e1′e2′) 当一个向量 ξ \boldsymbol{\xi} ξ在基 { e 1 ′ , e 2 ′ } \{\boldsymbol{e}'_1,\,\boldsymbol{e}'_2\} {e1′,e2′}下的坐标是 x \boldsymbol{x} x,经变换 A x \boldsymbol{Ax} Ax,得到 ξ \boldsymbol{\xi} ξ在自然基底下的坐标 b \boldsymbol{b} b. 求得 A = ( e 1 ′ e 2 ′ ) = ( cos θ − sin θ sin θ cos θ ) \boldsymbol{A}=\begin{pmatrix}\boldsymbol{e}'_1&\boldsymbol{e}'_2\end{pmatrix}=\begin{pmatrix}\cos\theta&-\sin\theta\\\sin\theta&\cos\theta\end{pmatrix} A=(e1′e2′)=(cosθsinθ−sinθcosθ) |
不同维度变换: 考虑变换 ( 3 1 1 1 1 1 1 2 1 ) ( 1 2 2 ) = ( 7 5 7 ) \begin{pmatrix}3&1&1\\1&1&1\\1&2&1\end{pmatrix}\begin{pmatrix}1\\2\\2\end{pmatrix}=\begin{pmatrix}7\\5\\7\end{pmatrix} ⎝⎛311112111⎠⎞⎝⎛122⎠⎞=⎝⎛757⎠⎞,实现了 R 3 → R 3 \mathbb{R}^{3}\to \mathbb{R}^{3} R3→R3的映射. 使用非方阵能够将向量在不同维度转换,考虑不可逆变换 ( 3 1 4 1 5 2 ) ( 1 2 ) = ( 5 6 9 ) \begin{pmatrix}3&1\\4&1\\5&2\end{pmatrix}\begin{pmatrix}1\\2\end{pmatrix}=\begin{pmatrix}5\\6\\9\end{pmatrix} ⎝⎛345112⎠⎞(12)=⎝⎛569⎠⎞,实现了 R 2 → R 3 \mathbb{R}^{2}\to \mathbb{R}^{3} R2→R3的映射;变换 ( 2 1 1 1 2 2 ) ( 1 2 2 ) = ( 6 9 ) \begin{pmatrix}2&1&1\\1&2&2\end{pmatrix}\begin{pmatrix}1\\2\\2\end{pmatrix}=\begin{pmatrix}6\\9\end{pmatrix} (211212)⎝⎛122⎠⎞=(69),实现了 R 3 → R 2 \mathbb{R}^{3}\to \mathbb{R}^{2} R3→R2的映射.
1.3 线性变换的矩阵
记线性空间为
V
n
V_n
Vn,
ξ
\boldsymbol{\xi}
ξ是
V
n
V_n
Vn中的一个向量,设
T
\mathscr{T}
T是向量空间
V
n
V_n
Vn中的一个线性变换(可以看作是一个函数
f
f
f的推广),
T
\mathscr{T}
T能够将
ξ
\boldsymbol{\xi}
ξ变换到
ξ
′
\boldsymbol{\xi}'
ξ′,记作
T
(
ξ
)
=
ξ
′
\mathscr{T}(\boldsymbol{\xi})=\boldsymbol{\xi}'
T(ξ)=ξ′选定一组基
{
α
1
,
α
2
,
⋯
,
α
n
}
\{{\boldsymbol{\alpha}_1},\,{\boldsymbol{\alpha}_2},\,{\cdots},\,{\boldsymbol{\alpha}_n}\}
{α1,α2,⋯,αn},在这组基下,
ξ
\boldsymbol{\xi}
ξ的坐标是
x
=
(
x
1
x
2
⋮
x
n
)
\boldsymbol{x}=\begin{pmatrix}{{x}_1}\\{{x}_2}\\{\vdots}\\{{x}_n}\end{pmatrix}
x=⎝⎜⎜⎜⎛x1x2⋮xn⎠⎟⎟⎟⎞,
ξ
′
\boldsymbol{\xi}'
ξ′的坐标是
x
′
=
(
x
1
′
x
2
′
⋮
x
n
′
)
\boldsymbol{x}'=\begin{pmatrix}{{x}_1}'\\{{x}_2}'\\{\vdots}\\{{x}_n}'\end{pmatrix}
x′=⎝⎜⎜⎜⎛x1′x2′⋮xn′⎠⎟⎟⎟⎞. 变换
A
x
=
x
′
\boldsymbol{A}\boldsymbol{x}=\boldsymbol{x}'
Ax=x′ 将
x
→
x
′
\boldsymbol{x}\to\boldsymbol{x}'
x→x′,则在这组基下
T
\mathscr{T}
T与
A
\boldsymbol{A}
A一一对应.
因此
A
\boldsymbol{A}
A从矩阵乘法的几何意义上看不仅可以表示一组基,在这里还可以看作线性变换
T
\mathscr{T}
T在基
{
α
1
,
α
2
,
⋯
,
α
n
}
\{{\boldsymbol{\alpha}_1},\,{\boldsymbol{\alpha}_2},\,{\cdots},\,{\boldsymbol{\alpha}_n}\}
{α1,α2,⋯,αn}下的矩阵.
选定一组基
{
β
1
,
β
2
,
⋯
,
β
n
}
\{{\boldsymbol{\beta}_1},\,{\boldsymbol{\beta}_2},\,{\cdots},\,{\boldsymbol{\beta}_n}\}
{β1,β2,⋯,βn},在这组基下,
ξ
\boldsymbol{\xi}
ξ的坐标是
y
=
(
y
1
y
2
⋮
y
n
)
\boldsymbol{y}=\begin{pmatrix}{{y}_1}\\{{y}_2}\\{\vdots}\\{{y}_n}\end{pmatrix}
y=⎝⎜⎜⎜⎛y1y2⋮yn⎠⎟⎟⎟⎞,
ξ
′
\boldsymbol{\xi}'
ξ′的坐标是
y
′
=
(
y
1
′
y
2
′
⋮
y
n
′
)
\boldsymbol{y}'=\begin{pmatrix}{{y}_1}'\\{{y}_2}'\\{\vdots}\\{{y}_n}'\end{pmatrix}
y′=⎝⎜⎜⎜⎛y1′y2′⋮yn′⎠⎟⎟⎟⎞. 变换
B
y
=
y
′
\boldsymbol{B}\boldsymbol{y}=\boldsymbol{y}'
By=y′ 将
y
→
y
′
\boldsymbol{y}\to\boldsymbol{y}'
y→y′,则
B
\boldsymbol{B}
B是
T
\mathscr{T}
T在基
{
β
1
,
β
2
,
⋯
,
β
n
}
\{{\boldsymbol{\beta}_1},\,{\boldsymbol{\beta}_2},\,{\cdots},\,{\boldsymbol{\beta}_n}\}
{β1,β2,⋯,βn}下的矩阵.
推导两个变换矩阵的关系. 定义由基底
{
α
1
,
α
2
,
⋯
,
α
n
}
→
{
β
1
,
β
2
,
⋯
,
β
n
}
\{{\boldsymbol{\alpha}_1},\,{\boldsymbol{\alpha}_2},\,{\cdots},\,{\boldsymbol{\alpha}_n}\} \to {\{{\boldsymbol{\beta}_1},\,{\boldsymbol{\beta}_2},\,{\cdots},\,{\boldsymbol{\beta}_n}\}}
{α1,α2,⋯,αn}→{β1,β2,⋯,βn} 的过渡矩阵
P
\boldsymbol{P}
P,则对应的坐标变换为
x
=
P
y
\boldsymbol{x}=\boldsymbol{P}\boldsymbol{y}
x=Py和
x
′
=
P
y
′
\boldsymbol{x}'=\boldsymbol{P}\boldsymbol{y}'
x′=Py′,则
A
x
=
x
′
⇒
A
(
P
y
)
=
P
y
′
⇒
P
−
1
A
P
y
=
y
′
\begin{aligned} &\boldsymbol{A}\boldsymbol{x}=\boldsymbol{x}' \\\Rightarrow&\boldsymbol{A}(\boldsymbol{P}\boldsymbol{y})=\boldsymbol{P}\boldsymbol{y}' \\\Rightarrow&\boldsymbol{P}^{-1}\boldsymbol{A}\boldsymbol{P}\boldsymbol{y}=\boldsymbol{y}' \end{aligned}
⇒⇒Ax=x′A(Py)=Py′P−1APy=y′即得到
P
−
1
A
P
y
=
y
′
=
B
y
⇒
P
−
1
A
P
=
B
\begin{aligned}&\boldsymbol{P}^{-1}\boldsymbol{A}\boldsymbol{P}\boldsymbol{y}=\boldsymbol{y}'=\boldsymbol{B}\boldsymbol{y} \\\Rightarrow&\boldsymbol{P}^{-1}\boldsymbol{A}\boldsymbol{P}=\boldsymbol{B} \end{aligned}
⇒P−1APy=y′=ByP−1AP=B 从上述公式看出,空间中同一个线性变换,在不同的基底下,用于描述的矩阵也是不同. 这些不同矩阵所描述的线性变换是相似的,他们也称之为相似矩阵,而过渡矩阵
P
\boldsymbol{P}
P联系了这些相似矩阵. 相似矩阵表示的线性变换为相似变换.
第二章 矩阵的四大基本空间
在 A ∈ R m × n \boldsymbol{A} \in \mathbb{R}^{m \times n} A∈Rm×n中,由 A x = b \boldsymbol{Ax}=\boldsymbol{b} Ax=b得到列空间 C ( A ) C(\boldsymbol{A}) C(A),或称值域、像.
当 A x = 0 \boldsymbol{Ax}=\boldsymbol{0} Ax=0时所有解的集合 x \boldsymbol{x} x得到零空间 N ( A ) N(\boldsymbol{A}^{}) N(A),或称核 Ker ( A ) \text{Ker}(\boldsymbol{A}^{}) Ker(A).
由 A ⊤ y = b \boldsymbol{A}^\top\boldsymbol{y}=\boldsymbol{b} A⊤y=b或 y ⊤ A = b ⊤ \boldsymbol{y}^\top \boldsymbol{A}=\boldsymbol{b}^\top y⊤A=b⊤得到行空间 C ( A ⊤ ) C(\boldsymbol{A}^{\top}) C(A⊤),或记作 R ( A ) R(\boldsymbol{A}) R(A),或称余像.
当 A ⊤ y = 0 \boldsymbol{A}^\top\boldsymbol{y}=\boldsymbol{0} A⊤y=0得到左零空间 N ( A ⊤ ) N(\boldsymbol{A}^{\top}) N(A⊤),或称上核.
其中, C ( A ⊤ ) 、 N ( A ) ∈ R n C(\boldsymbol{A}^{\top})、N(\boldsymbol{A}^{}) \in \mathbb{R}^n C(A⊤)、N(A)∈Rn, C ( A ) 、 N ( A ⊤ ) ∈ R m C(\boldsymbol{A})、N(\boldsymbol{A}^{\top}) \in \mathbb{R}^m C(A)、N(A⊤)∈Rm.
矩阵基本子空间的维度和正交补 V ⊥ V^\perp V⊥:
dim C ( A ⊤ ) = dim C ( A ) = r ( A ) = r \dim C(\boldsymbol{A}^{\top})=\dim C(\boldsymbol{A})=\text{r}(\boldsymbol{A})=r dimC(A⊤)=dimC(A)=r(A)=r.
因为
x
⊤
(
A
⊤
y
)
=
(
A
x
)
⊤
y
=
0
\boldsymbol{x}^\top(\boldsymbol{A}^\top\boldsymbol{y})=(\boldsymbol{Ax})^\top\boldsymbol{y}=\boldsymbol{0}
x⊤(A⊤y)=(Ax)⊤y=0,
N
(
A
)
∪
C
(
A
⊤
)
=
R
n
N(\boldsymbol{A}^{})\cup C(\boldsymbol{A}^{\top})=\mathbb{R}^n
N(A)∪C(A⊤)=Rn,所以零空间
N
(
A
)
N(\boldsymbol{A}^{})
N(A)和行空间
C
(
A
⊤
)
C(\boldsymbol{A}^{\top})
C(A⊤)互为正交补,维度和是
dim
C
(
A
⊤
)
+
dim
N
(
A
)
=
r
+
(
n
−
r
)
=
n
.
\dim C(\boldsymbol{A}^{\top})+\dim N(\boldsymbol{A})=r+(n-r)=n.
dimC(A⊤)+dimN(A)=r+(n−r)=n. 因为
y
⊤
(
A
x
)
=
(
A
⊤
y
)
⊤
x
=
0
\boldsymbol{y}^\top(\boldsymbol{A x})=(\boldsymbol{A}^\top\boldsymbol{y})^\top\boldsymbol{x}=\boldsymbol{0}
y⊤(Ax)=(A⊤y)⊤x=0,
N
(
A
⊤
)
∪
C
(
A
)
=
R
m
N(\boldsymbol{A}^{\top})\cup C(\boldsymbol{A})=\mathbb{R}^m
N(A⊤)∪C(A)=Rm,所以左零空间
N
(
A
⊤
)
N(\boldsymbol{A}^{\top})
N(A⊤)和列空间
C
(
A
)
C(\boldsymbol{A})
C(A)互为正交补,维度和是
dim
C
(
A
)
+
dim
N
(
A
⊤
)
=
r
+
(
m
−
r
)
=
m
.
\dim C(\boldsymbol{A})+\dim N(\boldsymbol{A}^{\top})=r+(m-r)=m.
dimC(A)+dimN(A⊤)=r+(m−r)=m. 矩阵空间的基: 初等行变换不改变行空间和零空间,初等列变换不改变列空间和左零空间. 对
A
\boldsymbol{A}
A作初等行变换,
1.行空间 C ( A ⊤ ) C(\boldsymbol{A}^{\top}) C(A⊤)一组基由行向量的最大线性无关组构成,或行最简型的非零行向量.
2.零空间 N ( A ) N(\boldsymbol{A}^{}) N(A)一组基由使 A \boldsymbol{A} A的列向量通过线性组合所得到的结果为 0 \boldsymbol{0} 0的向量构成,即方程 A x = 0 \boldsymbol{Ax}=\boldsymbol{0} Ax=0的基础解系.
3.列空间 C ( A ) C(\boldsymbol{A}) C(A)一组基由列向量的最大线性无关组构成,即独立主元列.
4.左零空间 N ( A ⊤ ) N(\boldsymbol{A}^{\top}) N(A⊤)一组基由使 A \boldsymbol{A} A的行向量通过线性组合得到的结果为 0 \boldsymbol{0} 0的向量构成,即方程 A ⊤ y = 0 \boldsymbol{A}^\top\boldsymbol{y}=\boldsymbol{0} A⊤y=0的基础解系.
例1 | 证明若 A ⊤ A x = 0 \boldsymbol{A^\top Ax}=\boldsymbol{0} A⊤Ax=0,则 A x = 0 \boldsymbol{Ax}=\boldsymbol{0} Ax=0. |
---|---|
证一 | 由
A
⊤
A
x
=
0
\boldsymbol{A^\top Ax}=\boldsymbol{0}
A⊤Ax=0得 A x \boldsymbol{Ax} Ax在 A \boldsymbol{A} A的左零空间 N ( A ⊤ ) N(\boldsymbol{A}^{\top}) N(A⊤) A x \boldsymbol{Ax} Ax又在 A \boldsymbol{A} A的列空间 C ( A ) C(\boldsymbol{A}) C(A) 又 N ( A ⊤ ) ⊥ C ( A ) N(\boldsymbol{A}^{\top})\perp C(\boldsymbol{A}) N(A⊤)⊥C(A) 得 A x = N ( A ⊤ ) ∩ C ( A ) = 0 \boldsymbol{Ax}=N(\boldsymbol{A}^{\top})\cap C(\boldsymbol{A})=\boldsymbol{0} Ax=N(A⊤)∩C(A)=0 |
证二 | 令
f
(
x
)
=
x
⊤
A
⊤
A
x
=
x
⊤
0
=
0
=
(
A
x
)
⊤
A
x
f(\boldsymbol{x})=\boldsymbol{x^\top A^\top Ax}=\boldsymbol{x^\top 0}=\boldsymbol{0}=\boldsymbol{(Ax)^\top Ax}
f(x)=x⊤A⊤Ax=x⊤0=0=(Ax)⊤Ax 得 A x = 0 \boldsymbol{Ax}=\boldsymbol{0} Ax=0 |
例2 | 求矩阵 A = ( 1 3 1 4 1 2 7 3 9 2 1 5 3 1 1 1 2 0 8 1 ) \boldsymbol{A}=\begin{pmatrix}1&3&1&4&1\\2&7&3&9&2\\1&5&3&1&1\\1&2&0&8&1\end{pmatrix} A=⎝⎜⎜⎛12113752133049181211⎠⎟⎟⎞的列空间、零空间、行空间和左零空间. |
---|---|
解 | 记
A
=
(
c
1
c
2
c
3
c
4
c
5
)
\boldsymbol{A}=\begin{pmatrix}{\boldsymbol{c}_1}&{\boldsymbol{c}_2}&{\boldsymbol{c}_3}&{\boldsymbol{c}_4}&\boldsymbol{c}_5\end{pmatrix}
A=(c1c2c3c4c5) 化为行最简型得 A = ( 1 3 1 4 1 2 7 3 9 2 1 5 3 1 1 1 2 0 8 1 ) ∼ ( 1 0 − 2 0 1 0 1 1 0 0 0 0 0 1 0 0 0 0 0 0 ) = ( b 1 b 2 b 3 b 4 ) \boldsymbol{A}=\begin{pmatrix}1&3&1&4&1\\2&7&3&9&2\\1&5&3&1&1\\1&2&0&8&1\end{pmatrix}\sim\begin{pmatrix}1&0&-2&0&1\\0&1&1&0&0\\0&0&0&1&0\\0&0&0&0&0\end{pmatrix}=\begin{pmatrix}{\boldsymbol{b}_1}\\{\boldsymbol{b}_2}\\{\boldsymbol{b}_3}\\{\boldsymbol{b}_4}\end{pmatrix} A=⎝⎜⎜⎛12113752133049181211⎠⎟⎟⎞∼⎝⎜⎜⎛10000100−210000101000⎠⎟⎟⎞=⎝⎜⎜⎛b1b2b3b4⎠⎟⎟⎞ A ⊤ \boldsymbol{A}^\top A⊤化为行最简型得 A ⊤ ∼ ( 1 0 0 0 0 1 0 1 0 0 1 1 0 0 0 0 0 0 0 0 ) \boldsymbol{A}^\top\sim\begin{pmatrix}1&0&0&0\\0&1&0&1\\0&0&1&1\\0&0&0&0\\0&0&0&0\end{pmatrix} A⊤∼⎝⎜⎜⎜⎜⎛10000010000010001100⎠⎟⎟⎟⎟⎞ 则 r ( A ) = 3 \text{r}(\boldsymbol{A})=3 r(A)=3 得 C ( A ) = Span { c 1 , c 2 , c 4 } C(\boldsymbol{A})=\text{Span}\{\boldsymbol{c}_1,\,\boldsymbol{c}_2,\,\boldsymbol{c}_4\} C(A)=Span{c1,c2,c4} 得 C ( A ⊤ ) = Span { b 1 , b 2 , b 3 } C(\boldsymbol{A}^{\top})=\text{Span}\{\boldsymbol{b}_1,\,\boldsymbol{b}_2,\,\boldsymbol{b}_3\} C(A⊤)=Span{b1,b2,b3} 考虑变换 A x = 0 \boldsymbol{Ax}=\boldsymbol{0} Ax=0 则 { x 1 = 2 x 3 − x 5 x 2 = − x 3 x 4 = 0 \begin{cases} x_1&=2x_3-x_5\\x_2&=-x_3\\x_4&=0 \end{cases} ⎩⎪⎨⎪⎧x1x2x4=2x3−x5=−x3=0 令 ( x 3 x 5 ) = ( 1 0 ) 或 ( 0 1 ) \begin{pmatrix}x_3\\x_5\end{pmatrix}=\begin{pmatrix}1\\0\end{pmatrix}或\begin{pmatrix}0\\1\end{pmatrix} (x3x5)=(10)或(01) 得 N ( A ) = Span { ( 2 − 1 1 0 0 ) , ( − 1 0 0 0 0 ) } N(\boldsymbol{A}^{})=\text{Span}\{\begin{pmatrix}2\\-1\\1\\0\\0\end{pmatrix},\,\begin{pmatrix}-1\\0\\0\\0\\0\end{pmatrix}\} N(A)=Span{⎝⎜⎜⎜⎜⎛2−1100⎠⎟⎟⎟⎟⎞,⎝⎜⎜⎜⎜⎛−10000⎠⎟⎟⎟⎟⎞} 同理考虑变换 A ⊤ y = 0 \boldsymbol{A}^\top\boldsymbol{y}=\boldsymbol{0} A⊤y=0 得 N ( A ⊤ ) = Span { ( 0 − 1 − 1 1 ) } N(\boldsymbol{A}^{\top})=\text{Span}\{\begin{pmatrix}0\\-1\\-1\\1\end{pmatrix}\} N(A⊤)=Span{⎝⎜⎜⎛0−1−11⎠⎟⎟⎞} |
应用一 最小二乘法的线性拟合
3.0 向量范数
为比较向量的大小,引入向量范数,实现从向量到标量的映射. 定义
L
p
L_p
Lp范数:
L
p
=
∥
x
∥
p
=
∑
i
=
1
n
x
i
p
p
L_p=\lVert \boldsymbol{x}\rVert _p=\sqrt[p]{\sum_{i=1}^n x_i^p}
Lp=∥x∥p=pi=1∑nxip
L
0
L_0
L0范数表示向量中非零元素的个数,不是真正意义上的范数.
L
1
L_1
L1范数(曼哈顿范数、最小绝对误差、稀疏规则算子)即求向量各元素之和
∥
x
∥
1
=
∑
i
=
1
n
∣
x
i
∣
\begin{aligned}\lVert \boldsymbol{x}\rVert _1={\sum_{i=1}^n \lvert x_i\rvert}\end{aligned}
∥x∥1=i=1∑n∣xi∣. 通过
L
1
L_1
L1可以实现特征的稀疏,去掉一些没有信息的特征.
L
1
L_1
L1范数可以度量两个向量间的差异,如绝对误差和
SAD
(
x
,
y
)
=
∑
i
=
1
n
∣
x
i
−
y
i
∣
\text{SAD}(\boldsymbol{x},\boldsymbol{y})=\sum_{i=1}^n{\lvert x_{i}-y_{i}\rvert}
SAD(x,y)=i=1∑n∣xi−yi∣
L
2
L_2
L2范数(欧几里得范数)用来做优化目标函数的正则化项,防止模型过拟合,提高泛化能力.
∥
x
∥
=
∑
i
=
1
n
x
i
2
\begin{aligned}\lVert \boldsymbol{x}\rVert =\sqrt[]{\sum_{i=1}^n x_i^2}\end{aligned}
∥x∥=i=1∑nxi2用于度量欧氏距离,则空间中两向量的距离或称均方误差
MSE
(
x
,
y
)
=
∑
i
=
1
n
(
x
i
−
y
i
)
2
\text{MSE}(\boldsymbol{x},\boldsymbol{y})=\sqrt[]{\sum_{i=1}^n (x_i-y_i)^2}
MSE(x,y)=i=1∑n(xi−yi)2
3.1 投影矩阵与投影向量
设 A ∈ R m × n \boldsymbol{A}\in\mathbb{R}^{m\times n} A∈Rm×n,考虑方程 A w = y \boldsymbol{Aw}=\boldsymbol{y} Aw=y无解 ⇔ y \,\Leftrightarrow\boldsymbol{y} ⇔y不在 C ( A ) C(\boldsymbol{A}) C(A)中. 要在 C ( A ) C(\boldsymbol{A}) C(A)中找到一个 y ^ \hat{\boldsymbol{y}} y^,才能使方程有解. 且使得 y ^ \hat{\boldsymbol{y}} y^与 y \boldsymbol{y} y的距离最小, y ^ \hat{\boldsymbol{y}} y^就是 y \boldsymbol{y} y在 C ( A ) C(\boldsymbol{A}) C(A)的投影,从而得到 w ^ \hat{\boldsymbol{w}} w^.
投影误差向量
ε
=
y
−
y
^
\boldsymbol{\varepsilon}=\boldsymbol{y}-\hat{\boldsymbol{y}}
ε=y−y^,令
L
2
L_2
L2范数即模长最小,可求导证明:
∂
∥
ε
∥
2
∂
w
^
=
∂
∥
y
−
A
w
^
∥
2
∂
w
^
=
∂
(
y
−
A
w
^
)
⊤
(
y
−
A
w
^
)
∂
w
^
=
∂
(
y
⊤
y
−
∂
w
^
⊤
A
⊤
y
−
∂
y
⊤
A
w
^
+
∂
w
^
⊤
A
⊤
A
w
^
)
∂
w
^
=
A
⊤
A
w
^
−
A
⊤
y
=
0
\begin{aligned} \frac{\partial \lVert \boldsymbol{\varepsilon}\rVert ^2} {\partial \hat{\boldsymbol{w}}} &=\frac{\partial \lVert \boldsymbol{y}-\boldsymbol{A} \hat{\boldsymbol{w}} \rVert ^2} {\partial \hat{\boldsymbol{w}}} \\&=\frac{\partial (\boldsymbol{y}-\boldsymbol{A} \hat{\boldsymbol{w}})^\top (\boldsymbol{y}-\boldsymbol{A} \hat{\boldsymbol{w}})} {\partial \hat{\boldsymbol{w}}} \\&=\frac{\partial (\boldsymbol{y}^{\top} \boldsymbol{y}-\partial \hat{\boldsymbol{w}}^{\top} \boldsymbol{A}^{\top} \boldsymbol{y}-\partial \boldsymbol{y}^{\top} \boldsymbol{A} \hat{\boldsymbol{w}}+\partial \hat{\boldsymbol{w}}^{\top} \boldsymbol{A}^{\top} \boldsymbol{A} \hat{\boldsymbol{w}})} {\partial \hat{\boldsymbol{w}}} \\&=\boldsymbol{A}^{\top} \boldsymbol{A} \hat{\boldsymbol{w}}-\boldsymbol{A}^{\top} \boldsymbol{y} \\&=0 \end{aligned}
∂w^∂∥ε∥2=∂w^∂∥y−Aw^∥2=∂w^∂(y−Aw^)⊤(y−Aw^)=∂w^∂(y⊤y−∂w^⊤A⊤y−∂y⊤Aw^+∂w^⊤A⊤Aw^)=A⊤Aw^−A⊤y=0
由于
(
A
⊤
A
)
−
1
(\boldsymbol{A}^\top\boldsymbol{A})^{-1}
(A⊤A)−1可逆,解得
w
^
=
(
A
⊤
A
)
−
1
A
⊤
y
\hat{\boldsymbol{w}}=(\boldsymbol{A}^\top\boldsymbol{A})^{-1}\boldsymbol{A}^\top\boldsymbol{y}
w^=(A⊤A)−1A⊤y,此时取得
min
∥
ε
∥
\min\lVert\boldsymbol{\varepsilon}\rVert
min∥ε∥. 记
P
=
A
(
A
⊤
A
)
−
1
A
⊤
\boldsymbol{P}=\boldsymbol{A}(\boldsymbol{A}^\top\boldsymbol{A})^{-1}\boldsymbol{A}^\top
P=A(A⊤A)−1A⊤为向量向
C
(
A
)
C(\boldsymbol{A})
C(A)的投影矩阵,投影向量是
y
^
=
A
(
A
⊤
A
)
−
1
A
⊤
y
\hat{\boldsymbol{y}}=\boldsymbol{A}(\boldsymbol{A}^\top\boldsymbol{A})^{-1}\boldsymbol{A}^\top\boldsymbol{y}
y^=A(A⊤A)−1A⊤y
3.2 多元线性回归
设
R
m
\mathbb{R}^m
Rm内得一个超平面方程是
y
=
w
1
x
1
+
w
2
x
2
+
⋯
+
w
m
−
1
x
m
−
1
+
b
y=w_1x_1+w_2x_2+\cdots+w_{m-1}x_{m-1}+b
y=w1x1+w2x2+⋯+wm−1xm−1+b,
m
⩾
2
m\geqslant 2
m⩾2,所求参数为
w
=
(
w
1
w
2
⋮
w
m
−
1
b
)
∈
R
m
\boldsymbol{w}=\begin{pmatrix}w_1\\w_2\\\vdots\\w_{m-1}\\b\end{pmatrix}\in\mathbb{R}^m
w=⎝⎜⎜⎜⎜⎜⎛w1w2⋮wm−1b⎠⎟⎟⎟⎟⎟⎞∈Rm. 现有
k
k
k个
m
m
m维向量,其坐标为
(
x
1
⊤
x
2
⊤
⋮
x
k
⊤
)
=
(
x
11
x
12
⋯
x
1
m
−
1
y
1
x
21
x
22
⋯
x
2
m
−
1
y
2
⋮
⋮
⋱
⋮
⋮
x
k
1
x
k
2
⋯
x
k
m
−
1
y
k
)
\begin{pmatrix}{\boldsymbol{x}_1^\top}\\{\boldsymbol{x}_2^\top}\\{\vdots}\\{\boldsymbol{x}_k^\top}\end{pmatrix}=\begin{pmatrix} {x_{11}}&{x_{12}}&{\cdots}&{x_{1m-1}}&{y_1}\\ {x_{21}}&{x_{22}}&{\cdots}&{x_{2m-1}}&{y_2}\\ {\vdots}&{\vdots}&{\ddots}&{\vdots}&{\vdots}\\ {x_{k1}}&{x_{k2}}&{\cdots}&{x_{km-1}}&{y_k}\\ \end{pmatrix}
⎝⎜⎜⎜⎛x1⊤x2⊤⋮xk⊤⎠⎟⎟⎟⎞=⎝⎜⎜⎜⎛x11x21⋮xk1x12x22⋮xk2⋯⋯⋱⋯x1m−1x2m−1⋮xkm−1y1y2⋮yk⎠⎟⎟⎟⎞(行向量表示).
为方便表示,令投影空间
X
=
(
x
11
x
12
⋯
x
1
m
−
1
1
x
21
x
22
⋯
x
2
m
−
1
1
⋮
⋮
⋱
⋮
⋮
x
k
1
x
k
2
⋯
x
k
m
−
1
1
)
\boldsymbol{X}=\begin{pmatrix} {x_{11}}&{x_{12}}&{\cdots}&{x_{1m-1}}&{1}\\ {x_{21}}&{x_{22}}&{\cdots}&{x_{2m-1}}&{1}\\ {\vdots}&{\vdots}&{\ddots}&{\vdots}&{\vdots}\\ {x_{k1}}&{x_{k2}}&{\cdots}&{x_{km-1}}&{1}\\ \end{pmatrix}
X=⎝⎜⎜⎜⎛x11x21⋮xk1x12x22⋮xk2⋯⋯⋱⋯x1m−1x2m−1⋮xkm−111⋮1⎠⎟⎟⎟⎞,被投影向量
y
=
(
y
1
y
2
⋮
y
k
)
\boldsymbol{y}=\begin{pmatrix}y_1\\y_2\\\vdots\\y_{k}\end{pmatrix}
y=⎝⎜⎜⎜⎛y1y2⋮yk⎠⎟⎟⎟⎞,带入超平面方程得
X
w
=
y
\boldsymbol{X}\boldsymbol{w}=\boldsymbol{y}
Xw=y,即转化为求
y
\boldsymbol{y}
y在
C
(
X
)
C(\boldsymbol{X})
C(X)下的投影
y
^
\hat{\boldsymbol{y}}
y^:
w
^
=
(
X
⊤
X
)
−
1
X
⊤
y
\hat{\boldsymbol{w}}=(\boldsymbol{X}^\top\boldsymbol{X})^{-1}\boldsymbol{X}^\top\boldsymbol{y}
w^=(X⊤X)−1X⊤y
此时
y
^
=
X
w
^
\hat{\boldsymbol{y}}={\boldsymbol{X}}\hat{\boldsymbol{w}}
y^=Xw^.
最终得到拟合方程: x m = w ^ 1 x 1 + w ^ 2 x 2 + ⋯ + w ^ m x m + b ^ x_m=\hat{w}_1x_1+\hat{w}_2x_2+\cdots+\hat{w}_mx_{m}+\hat{b} xm=w^1x1+w^2x2+⋯+w^mxm+b^.
例1 | 在 R 2 \mathbb{R}^2 R2中有点 ( 0 , 6 ) (0,\,6) (0,6)、 ( 1 , 0 ) (1,\,0) (1,0)、 ( 2 , 0 ) (2,\,0) (2,0),拟合直线 y = w x + b y=wx+b y=wx+b. |
---|---|
解 | 令
y
=
(
y
1
y
2
y
3
)
=
(
6
0
0
)
\boldsymbol{y}=\begin{pmatrix}y_1\\y_2\\y_3\end{pmatrix}=\begin{pmatrix}6\\0\\0\end{pmatrix}
y=⎝⎛y1y2y3⎠⎞=⎝⎛600⎠⎞,
X
=
(
x
1
1
x
2
1
x
3
1
)
=
(
0
1
1
1
2
1
)
\boldsymbol{X}=\begin{pmatrix}x_1&1\\x_2&1\\x_3&1\end{pmatrix}=\begin{pmatrix}0&1\\1&1\\2&1\end{pmatrix}
X=⎝⎛x1x2x3111⎠⎞=⎝⎛012111⎠⎞,
w
=
(
w
b
)
\boldsymbol{w}=\begin{pmatrix}w\\b\end{pmatrix}
w=(wb) 转化为对于 y = X w \boldsymbol{y}=\boldsymbol{X}\boldsymbol{w} y=Xw,求 y \boldsymbol{y} y在 X \boldsymbol{X} X下的投影 所以 w ^ = ( X ⊤ X ) − 1 X ⊤ y = ( − 3 5 ) \hat{\boldsymbol{w}}=(\boldsymbol{X}^\top\boldsymbol{X})^{-1}\boldsymbol{X}^\top\boldsymbol{y}=\begin{pmatrix}-3\\5\end{pmatrix} w^=(X⊤X)−1X⊤y=(−35) 即 y ^ = − 3 x + 5 \hat{y}=-3x+5 y^=−3x+5 |
例2 | 在 R 3 \mathbb{R}^3 R3中有点 ( 0 , 5 , 2 ) (0,\,5,\,2) (0,5,2)、 ( 1 , 0 , 1 ) (1,\,0,\,1) (1,0,1)、 ( 2 , 0 , 2 ) (2,\,0,\,2) (2,0,2)、 ( 1 , 1 , 1 ) (1,\,1,\,1) (1,1,1),拟合平面 z = w 1 x + x 2 y + b z=w_1x+x_2y+b z=w1x+x2y+b. |
---|---|
解 | 令
y
=
(
y
1
y
2
y
3
y
4
)
=
(
2
1
2
1
)
\boldsymbol{y}=\begin{pmatrix}y_1\\y_2\\y_3\\y_4\end{pmatrix}=\begin{pmatrix}2\\1\\2\\1\end{pmatrix}
y=⎝⎜⎜⎛y1y2y3y4⎠⎟⎟⎞=⎝⎜⎜⎛2121⎠⎟⎟⎞, X = ( x 11 x 12 1 x 21 x 22 1 x 31 x 32 1 x 41 x 42 1 ) = ( 0 5 1 1 0 1 2 0 1 1 1 1 ) \boldsymbol{X}=\begin{pmatrix}x_{11}&x_{12}&1\\x_{21}&x_{22}&1\\x_{31}&x_{32}&1\\x_{41}&x_{42}&1\end{pmatrix}=\begin{pmatrix}0&5&1\\1&0&1\\2&0&1\\1&1&1\end{pmatrix} X=⎝⎜⎜⎛x11x21x31x41x12x22x32x421111⎠⎟⎟⎞=⎝⎜⎜⎛012150011111⎠⎟⎟⎞, 要求 w = ( w 1 w 2 b ) \boldsymbol{w}=\begin{pmatrix}w_1\\w_2\\b\end{pmatrix} w=⎝⎛w1w2b⎠⎞ 转化为对于 y = X w \boldsymbol{y}=\boldsymbol{X}\boldsymbol{w} y=Xw,求 y \boldsymbol{y} y在 X \boldsymbol{X} X下的投影 所以 w ^ = ( X ⊤ X ) − 1 X ⊤ y = ( 10 9 4 9 − 5 18 ) \hat{\boldsymbol{w}}=(\boldsymbol{X}^\top\boldsymbol{X})^{-1}\boldsymbol{X}^\top\boldsymbol{y}=\begin{pmatrix}\begin{aligned}&\frac{10}{9}\\&\frac{4}{9}\\-&\frac{5}{18}\end{aligned}\end{pmatrix} w^=(X⊤X)−1X⊤y=⎝⎜⎜⎜⎜⎜⎛−91094185⎠⎟⎟⎟⎟⎟⎞ 即 z = 10 9 y + 2 5 x − 5 18 \begin{aligned}z=\frac{10}{9}y+\frac{2}{5}x-\frac{5}{18}\end{aligned} z=910y+52x−185 |
验证一下:例2Mathematica拟合代码:
y = ({ {2}, {1}, {2}, {1} })
X = ({ {0, 5, 1},
{1, 0, 1},
{2, 0, 1},
{1, 1, 1}, })
w = Inverse[(Transpose[X].X)].Transpose[X].y
Show[Plot3D[(10/9)*x + (4/9)*y - (5/18), {x, -2, 5}, {y, -2, 6}],
Graphics3D[{Green, PointSize[.016], Point[{0, 5, 2}]}],
Graphics3D[{Green, PointSize[.016], Point[{1, 0, 1}]}],
Graphics3D[{Green, PointSize[.016], Point[{2, 0, 2}]}],
Graphics3D[{Green, PointSize[.016], Point[{1, 1, 1}]}]]
例2sklearn拟合代码:
# 导入线性回归模型
from sklearn import linear_model
from sklearn.linear_model import LinearRegression
# 建立线性回归模型
reg = linear_model.LinearRegression()
# 调用 fit 方法来拟合数组 (X,y)
reg.fit ([[0,5], [1,0], [2,0], [1,1]], [2, 1, 2, 1])
LinearRegression(copy_X=True, #直接在原始样本计算,而非其复制
fit_intercept=True, # 计算截距
n_jobs=1, # 与CPU计算有关
normalize=False) # 不标准化
# 线性模型系数w存储在coef_
# 截距存储在reg.intercept_
print("z=",reg.coef_[0],
"x+",reg.coef_[1],
"y",reg.intercept_)
# output:z=1.1111111111111112x+0.4444444444444444y-0.2777777777777777