机器学习笔记之线性回归——从概率密度函数角度认识最小二乘法
引言
上一节介绍了线性回归,并介绍了对 表达自变量 x x x与因变量 y y y之间关系的拟合方程 f ( W ) f(\mathcal W) f(W)中参数 W \mathcal W W 求解的一种工具——最小二乘法。本节将从 概率密度函数角度 观察最小二乘法。
回顾:符号定义与最小二乘法
已知数据集合 D a t a Data Data包含 N N N个由自变量 x x x与因变量 y y y组成的样本,并且 各样本之间独立同分布:
D a t a = { ( x ( 1 ) , y ( 1 ) ) , ( x ( 2 ) , y ( 2 ) ) , ⋯ , ( x ( N ) , y ( N ) ) } Data = \{(x^{(1)},y^{(1)}),(x^{(2)},y^{(2)}),\cdots,(x^{(N)},y^{(N)})\} Data={(x(1),y(1)),(x(2),y(2)),⋯,(x(N),y(N))}
其中,任意一个自变量 x ( i ) ( 1 = 1 , 2 , ⋯ , N ) x^{(i)}(1=1,2,\cdots,N) x(i)(1=1,2,⋯,N)是一个 p p p维随机变量。记作 x ( i ) ∈ R p x^{(i)} \in \mathbb R^{p} x(i)∈Rp:
x ( i ) = ( x 1 ( i ) x 2 ( i ) ⋮ x p ( i ) ) x^{(i)} = \begin{pmatrix} x_1^{(i)} \\ x_2^{(i)} \\ \vdots \\ x_p^{(i)} \end{pmatrix} x(i)=⎝
⎛x1(i)x2(i)⋮xp(i)⎠
⎞
因此,关于自变量 x x x的集合 X \mathcal X X可以表示为 N × p N \times p N×p的矩阵:
X = ( x ( 1 ) , x ( 2 ) , ⋯ , x ( N ) ) T = ( x ( 1 ) T x ( 2 ) T ⋮ x ( N ) T ) = ( x 1 ( 1 ) , x 2 ( 1 ) , ⋯ , x p ( 1 ) x 1 ( 2 ) , x 2 ( 2 ) , ⋯ , x p ( 2 ) ⋮ x 1 ( N ) , x 2 ( N ) , ⋯ , x p ( N ) ) N × p \mathcal X = (x^{(1)},x^{(2)},\cdots,x^{(N)})^{T} = \begin{pmatrix}{x^{(1)}}^{T} \\ {x^{(2)}}^{T} \\ \vdots \\{x^{(N)}}^{T}\end{pmatrix} = \begin{pmatrix} x_1^{(1)},x_2^{(1)},\cdots,x_p^{(1)} \\ x_1^{(2)},x_2^{(2)},\cdots,x_p^{(2)} \\ \vdots \\ x_1^{(N)},x_2^{(N)},\cdots,x_p^{(N)} \end{pmatrix}_{N \times p} X=(x(1),x(2),⋯,x(N))T=⎝
⎛x(1)Tx(2)T⋮x(N)T⎠
⎞=⎝
⎛x1(1),x2(1),⋯,xp(1)x1(2),x2(2),⋯,xp(2)⋮x1(