《神经网络与深度学习》邱希鹏 学习笔记(3)
完成进度
第二章 机器学习概述
第二章首先介绍机器学习的基本概念和基本要素,并较为详细地描述一个机器学习的例子------线性回归
机器学习 (Machine Learning , ML) 通俗地讲,就是让计算机从数据中进行自动学习,得到某种知识/规律。
事实上,作为一门学科,机器学习通常指一类问题以及解决这类问题的方法,即如何从观测数据/样本中寻找规律,并利用学习到的规律/模型对未知或无法观测的数据进行预测。
机器学习在早期的工程领域被称作模式识别 (Pattern Recognition) ,但模式识别更偏向于具体的应用任务光学字符识别 语音识别 人脸识别 。这些任务的特色是,人类自身很容易完成,但背后的原因未知,因此也很难人工设计出一个计算机程序来完成这些任务。
机器学习可以直接从有标注的样本上学习其中的规律,并完成各种识别任务,并最终取代模式识别,成为这一类问题及解决方法的总称。
线性回归
线性回归 (Linear Regression) 是机器学习和统计学中最基础和最广泛应用的模型,是一种对自变量和因变量之间关系进行建模的回归分析。
自变量数量为1时称为简单回归,自变量数量大于1时称为多元回归。
从机器学习的角度来看,自变量就是样本的特征向量 x ∈ R D \pmb{x} \in \mathbb{R}^D xxx∈RD (每一维对应一个自变量),因变量是标签 y y y。
假设空间是一组参数化的线性参数
f ( x ; w , b ) = w T x + b , f(\pmb{x};\pmb{w},b) = \pmb{w}^T\pmb{x}+b, f(xxx;www,b)=wwwTxxx+b,
其中权重 w ∈ R D \pmb{w} \in \mathbb{R}^D www∈RD 都是可学习的参数,函数 f ( x ; w , b ) ∈ R f(\pmb{x};\pmb{w},b) \in \mathbb{R} f(xxx;www,b)∈R 也称为线性模型。
简单起见,公式可整理为
f ( x ; w ^ ) = w ^ T x ^ f(\pmb{x};\hat{\pmb{w}}) = \hat{\pmb{w}}^T\hat{\pmb{x}} f(xxx;www^)=www^Txxx^
其中, w ^ \hat{\pmb{w}} www^ 和 x ^ \hat{\pmb{x}} xxx^ 分别称为增广权重向量和增广特征向量。
x ^ = x ⨁ 1 ≜ [ x 1 ] = [ x 1 . . . x D 1 ] \hat{\pmb{x}}=\pmb{x}\bigoplus1\triangleq\begin{bmatrix} \\\\\pmb{x}\\\\\\1 \end{bmatrix} =\begin{bmatrix} x_1\\.\\.\\.\\x_D\\1 \end{bmatrix} xxx^=xxx⨁1≜⎣⎢⎢⎢⎢⎢⎢⎡xxx1⎦⎥⎥⎥⎥⎥⎥⎤=⎣⎢⎢⎢⎢⎢⎢⎡x1...xD1⎦⎥⎥⎥⎥⎥⎥⎤
w ^ = w ⨁ b ≜ [ x 1 ] = [ w 1 . . . w D b ] \hat{\pmb{w}}=\pmb{w}\bigoplus b \triangleq\begin{bmatrix} \\\\\pmb{x}\\\\\\1 \end{bmatrix} =\begin{bmatrix} w_1\\.\\.\\.\\w_D\\b \end{bmatrix} www^=www⨁b≜⎣⎢⎢⎢⎢⎢⎢⎡xxx1⎦⎥⎥⎥⎥⎥⎥⎤=⎣⎢⎢⎢⎢⎢⎢⎡w1...wDb⎦⎥⎥⎥⎥⎥⎥⎤
其中 ⨁ \bigoplus ⨁ 定义为两个向量的拼接操作。
下文直接以 w \pmb{w} www 和 x \pmb{x} xxx 分别表示增广权重向量和增广特征向量,线性模型简化为 f ( x ; w ) = w T x f(\pmb{x};\pmb{w})=\pmb{w}^T\pmb{x} f(xxx;www)=wwwTxxx。
参数学习
给定一组包含 N N N 个训练样本的训练集 D = { ( x ( n ) , y ( n ) ) } n = 1 N \mathcal{D}=\{(\pmb{x}^{(n)},y^{(n)})\}^N_{n=1} D={ (xxx(n),y(n))}n=1N,希望学习一个最优的线性回归的模型参数 w \pmb{w} www。
介绍四种参数估计方法。
-
经验风险最小化
-
首先,由于线性回归为回归问题,损失函数使用平方损失函数。
-
根据经验最小化准则,训练集 D \mathcal{D} D 上的经验风险定义为
R ( w ) = ∑ n = 1 N L ( y ( n ) , f ( x ( n ) ; w ) ) = 1 2 ∑ n = 1 N ( y ( n ) − w T x ( n ) ) 2 = 1 2 ∣ ∣ y − X T w ∣ ∣ 2 , \begin{aligned} \mathcal{R}(\pmb{w}) &= \sum^N_{n=1}\mathcal{L}(y^{(n)},f(\pmb{x}^{(n)};\pmb{w}))\\ &= \frac{1}{2}\sum^N _{n=1}(y^{(n)}-\pmb{w}^T\pmb{x}^{(n)})^2\\ &= \frac{1}{2}||\pmb{y}-\pmb{X}^T\pmb{w}||^2,\end{aligned} R(www)=n=1∑NL(y(n),f(xxx(n);www))=21n=1∑N(y(n)−wwwTxxx(n))2=21∣∣yyy−XXXTwww∣∣2,
首先,简化起见,省略了 1 N \frac{1}{N} N1。 -
其中, y = [ y ( 1 ) , … , y ( N ) ] T ∈ R N \pmb{y}=[y^{(1)},\dots,y^{(N)}]^T \in \mathbb{R}^N yyy=[y(1),…,y(N)]T∈RN 是由所有样本的真实标签组成的列向量,而 X ∈ R ( D + 1 ) × N \pmb{X} \in \mathbb{R}^{(D+1)\times N} XXX∈R(D+1)×N 是由所有样本的输入特征 x ( n ) , … , x ( n ) \pmb{x}^{(n)},\dots,\pmb{x}^{(n)} xxx(n),…,xxx(n) 组成的矩阵:
X = [ x 1 ( 1 ) x 1 ( 2 ) ⋯ x 1 ( N ) ⋮ ⋮ ⋱ ⋮ x D ( 1 ) x D ( 2 ) … x D ( N ) 1 1 … 1 ] X=\begin{bmatrix}x^{(1)}_1 & x^{(2)}_1& \cdots & x^{(N)}_1 \\\vdots & \vdots & \ddots & \vdots \\ x^{(1)}_D& x^{(2)}_D& \dots & x^{(N)}_D\\ 1& 1& \dots & 1\\ \end{bmatrix} X=⎣⎢⎢⎢⎡x1(1)⋮xD(1)1x1(2)⋮xD(2)1⋯⋱……x1(N)⋮xD(N)1⎦⎥⎥⎥⎤
风险函数 R ( w ) \mathcal{R}(\pmb{w}) R(www) 是关于 w \pmb{w} www 的凸函数,其对 w \pmb{w} www 的偏导数为:
∂ R ( w ) ∂ w = 1 2 ∂ ∣ ∣ y − X T w ∣ ∣ 2 ∂ w = − X ( y − X T w ) , \begin{aligned} \frac{\partial\mathcal{R}(\pmb{w})}{\partial\pmb{w}} &=\frac{1}{2}\frac{\partial||\pmb{y}-\pmb{X}^T \pmb{w}||^2}{\partial\pmb{w}}\\ &=-\pmb{X}(\pmb{y}-\pmb{X}^T\pmb{w}), \end{aligned} ∂www∂R(www)=21∂www∂∣∣yyy−