machine learning

最新推荐文章于 2024-06-17 16:57:37 发布

plume1009

最新推荐文章于 2024-06-17 16:57:37 发布

阅读量102

点赞数

分类专栏： jiqixuexi 机器学习文章标签：机器学习

jiqixuexi 同时被 2 个专栏收录

1 篇文章 0 订阅

订阅专栏

机器学习

1 篇文章 0 订阅

订阅专栏

最小均方误差函数

之前的讲义里，我们提到了最小均方误差函数，给出一组有 m 个样本的训练集，我们希望找到合适的参数 θ ，使得预测值 hθ(x) 与目标值尽可能接近。为了估计参数 θ ，我们定义如下的 cost function:

J (θ) = 1 2 \sum i = 1 m (h θ (x i) - y i) 2

这个 cost function 就是最小均方误差函数，第一讲里面，我们用梯度下降算法估计参数

θ , 而第二讲里面我们提到了矩阵的基本运算及矩阵的求导，现在就从矩阵的角度求参数

θ 的解析解。

矩阵的解析解

给定一组训练样本， D={(xi,yi)|xi∈Rn,yi∈R}mi=1 , xi 是维数为 n 的输入特征(默认为列向量)， yi 是连续的实数值， m 表示样本数，则输入特征可以用矩阵表示为：

X = [x 1, x 2, \dots, x m] T

输出变量可以用一个向量表示为：

y = [y 1, y 2, \dots, y m] T

而我们从第一讲已经知道，

hθ(xi)=xTiθ , 则我们可以得到如下的表达式：

X θ - y = ⎡ ⎣ ⎢ ⎢ x T 1 θ ⋮ x T m θ ⎤ ⎦ ⎥ ⎥ - ⎡ ⎣ ⎢ ⎢ y 1 ⋮ y m ⎤ ⎦ ⎥ ⎥ = ⎡ ⎣ ⎢ ⎢ h θ (x 1) - y 1 ⋮ h θ (x m) - y m ⎤ ⎦ ⎥ ⎥

则最小均方误差函数可以表示为：

J (θ) = 1 2 \sum i = 1 m (h θ (x i) - y i) 2 = 1 2 (X θ - y) T (X θ - y)

利用第二讲的矩阵基本运算将上式展开，可以得到：

J (θ) = 1 2 θ T X T X θ - θ T X T y - y T X θ + y T y

利用第二讲的矩阵求导，可以得到

J(θ) 对

θ 的偏导数为：

\partial J ( θ ) \partial θ = 1 2 (X T X θ + X T X θ - 2 X T y) = X T X θ - X T y

令该偏导数为0，则可以得到：

X T X θ = X T y

最终可以得到参数

θ 的解析解为：

θ = (X T X) - 1 X T y

如果矩阵

(XTX)−1 可逆，则该解就是全局最优解，有的时候，该矩阵不一定可逆，就是我们常常遇到的样本数远远大于参数的个数即

m≫n ,那么参数

θ ϵi∼

矩阵的基本概念

假设 aij∈R , 其中 i=1,2,...,m ; j=1,2,...,n . 我们定义如下的行列式：

A = ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ a 11 a 21 ⋮ a m 1 a 12 a 22 ⋮ a m 2 \dots \dots \dots a 1 n a 2 n ⋮ a m n ⎤ ⎦ ⎥ ⎥ ⎥ ⎥

是一个维数为

m×n 的实数矩阵。有时候我们会用如下的表达式来表示一个矩阵：

A = [a i j], i = 1, 2, . . ., m; j = 1, 2, . . ., n

这表示一个

m 行

n 列的矩阵，下标的第一个数

i 表示行，第二个数

j 表示列。
列向量定义： 一个向量可以看成是只有一列的矩阵，所以，这里讨论的所有向量都默认为列向量。
符号定义： 矩阵用大写的粗体字母表示，比如矩阵

A,B,X , 而向量用小写的粗体字母表示，比如向量

a,b,x .
矩阵的转置： 矩阵

A 的转置为

AT .
矩阵的逆： 如果一个矩阵

A 存在逆矩阵，则该逆矩阵表示为

A−1 .
矩阵的 determinant: 如果一个矩阵

A 是一个方阵，则它的determinant表示为

|A|
单位矩阵表示为

I , 零矩阵或 空矩阵表示为

0 。
矩阵的迹： 如果一个矩阵是

n×n 的方阵，则该矩阵的迹(trace) 为

trA=∑ni=1aii ，等于所有主对角线元素之和，一个实数的迹是它本身，
矩阵的迹满足下列关系：

tr A T = tr A tr A B = tr B A tr A B C = tr C A B = tr B C A

矩阵的乘法

设 A 是一个 m×n 的矩阵， B 是一个 n×p 的矩阵, 则两者的乘积 AB 表示为：

C = A B

其中

C 是一个

m×p 的矩阵，

C 中的任意一个元素

cij 表示为：

c i j = \sum k = 1 n a i k b k j i = 1, 2, . . ., m; j = 1, 2, . . ., n

类似的，一个

m×n 的矩阵

A 与一个

n×1 的列向量

x 相乘, 等于

z = A x z i = \sum k = 1 n a i k x k i = 1, 2, . . ., m

而一个

m×1 的列向量

y 与一个

m×n 的矩阵

A 相乘，等于

z T = y T A z i = \sum k = 1 m a k i x k i = 1, 2, . . ., n

因此，一个

m×1 的列向量

y ，一个

m×n 的矩阵

A 以及一个

n×1 的列向量

x ，他们的
乘积（是一个标量）可以表示为：

α = y T A x α = \sum j = 1 m \sum k = 1 n a j k y j x k

如果

A∈Rm×n ,

B∈Rn×p , 则满足以下关系：

C = A B c i j = \sum k = 1 n a i k b k j C T = B T A T c j i = \sum k = 1 n a j k b k i

矩阵的求导

假设有如下的函数：

y = Ψ (x)

其中

y∈Rm×1 ，

x∈Rn×1 , 则向量

y 关于

x 的导数，可以表示为：

\partial y \partial x = ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ \partial y 1 \partial x 1 \partial y 2 \partial x 1 ⋮ \partial y m \partial x 1 \partial y 1 \partial x 2 \partial y 2 \partial x 2 ⋮ \partial y m \partial x 2 \dots \dots \dots \partial y 1 \partial x n \partial y 2 \partial x n ⋮ \partial y m \partial x n ⎤ ⎦ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥

这个

m×n 的矩阵，是向量

y 关于

x 的一阶偏导数，这个矩阵也称为Jacobian矩阵。如果

x 是一个标量，则Jacobian矩阵
是一个

m×1 的矩阵，如果

y 是一个标量，则Jacobian矩阵是一个

1×n 的矩阵。\
已知，

y∈Rm×1 ，

x∈Rn×1 ,

A∈Rm×n ,

y = A x we can get: \partial y \partial x = A

证明

y i = \sum k = 1 n a i k x k \Rightarrow \partial y i \partial x j = a i j i = 1, 2, . . . m, j = 1, 2, . . . n . \Rightarrow \partial y \partial x = A

如果

x 是关于

z 的函数

y = A x we can get: \partial y \partial z = A \partial x \partial z

如果：

α=yTAx 则：

\partial α \partial x = y T A \partial α \partial y = x T A T

如果：

α=xTAx ,

x∈Rn×1 ,

A∈Rn×n 则：

\partial α \partial x = x T (A + A T)

证明

α = x T A x = \sum j = 1 n \sum i = 1 n a i j x i x j \Rightarrow \partial α \partial x k = \sum j = 1 n a k j x j + \sum i = 1 n a i k x i k = 1, 2, . . . n \Rightarrow \partial α \partial x = x T A T + x T A = x T (A + A T)

如果

A 是一个对称矩阵，那么

α=xTAx 对

x 的导数为，

∂α∂x=2xTA 。\
设

α=yTx , 其中

x 和

y 是关于

z 的函数。则

\partial α \partial z = x T \partial y \partial z + y T \partial x \partial z

参考：http://blog.csdn.net/matrix_space/article/details/44516553

http://blog.csdn.net/matrix_space/article/details/44516765

参考文献

Andrew Ng, Machine Learning, Stanford University.
Randal J. Barnes, Matrix Differentiation, University of Minnesota, Minneapolis, USA
Dhrymes, Phoebus J., 1978, Mathematics for Econometrics, Springer-Verlag, New york, 136 PP.
Golub, Gene H., and Charles F. Van Loan, 1983, Matrix Computations, Johns Hopkins University Press, Baltimore, Maryland, 476 pp.
Graybill, Franklin A., 1983, Matrices with Applications in Statistics, 2nd Edition, Wadsworth Internationl Group, Belmont, California, 461 pp.

plume1009

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
machine learning

最小均方误差函数之前的讲义里，我们提到了最小均方误差函数，给出一组有 m 个样本的训练集，我们希望找到合适的参数 θ，使得预测值 hθ(x) 与目标值尽可能接近。为了估计参数 θ，我们定义如下的 cost function: J(θ)=12∑i=1m(hθ(xi)−yi)2这个 cost function 就是最小均方误差函数，第一讲里面，我们用梯度下降算
复制链接

扫一扫