《神经网络与深度学习》邱希鹏 学习笔记(3)

本文是《神经网络与深度学习》的学习笔记,主要介绍了机器学习的基本概念,以线性回归为例阐述了模型的构建过程,并深入探讨了偏差-方差分解,解释了在模型选择中如何平衡拟合能力和复杂度。
摘要由CSDN通过智能技术生成

完成进度

第二章 机器学习概述


第二章首先介绍机器学习的基本概念和基本要素,并较为详细地描述一个机器学习的例子------线性回归

机器学习 (Machine Learning , ML) 通俗地讲,就是让计算机从数据中进行自动学习,得到某种知识/规律。

事实上,作为一门学科,机器学习通常指一类问题以及解决这类问题的方法,即如何从观测数据/样本中寻找规律,并利用学习到的规律/模型对未知或无法观测的数据进行预测。

机器学习在早期的工程领域被称作模式识别 (Pattern Recognition) ,但模式识别更偏向于具体的应用任务光学字符识别 语音识别 人脸识别 。这些任务的特色是,人类自身很容易完成,但背后的原因未知,因此也很难人工设计出一个计算机程序来完成这些任务。

机器学习可以直接从有标注的样本上学习其中的规律,并完成各种识别任务,并最终取代模式识别,成为这一类问题及解决方法的总称。

线性回归


线性回归 (Linear Regression) 是机器学习和统计学中最基础和最广泛应用的模型,是一种对自变量和因变量之间关系进行建模的回归分析。

自变量数量为1时称为简单回归,自变量数量大于1时称为多元回归

从机器学习的角度来看,自变量就是样本的特征向量 x ∈ R D \pmb{x} \in \mathbb{R}^D xxxRD (每一维对应一个自变量),因变量是标签 y y y

假设空间是一组参数化的线性参数

f ( x ; w , b ) = w T x + b , f(\pmb{x};\pmb{w},b) = \pmb{w}^T\pmb{x}+b, f(xxx;www,b)=wwwTxxx+b,

其中权重 w ∈ R D \pmb{w} \in \mathbb{R}^D wwwRD 都是可学习的参数,函数 f ( x ; w , b ) ∈ R f(\pmb{x};\pmb{w},b) \in \mathbb{R} f(xxx;www,b)R 也称为线性模型

简单起见,公式可整理为

f ( x ; w ^ ) = w ^ T x ^ f(\pmb{x};\hat{\pmb{w}}) = \hat{\pmb{w}}^T\hat{\pmb{x}} f(xxx;www^)=www^Txxx^

其中, w ^ \hat{\pmb{w}} www^ x ^ \hat{\pmb{x}} xxx^ 分别称为增广权重向量增广特征向量

x ^ = x ⨁ 1 ≜ [ x 1 ] = [ x 1 . . . x D 1 ] \hat{\pmb{x}}=\pmb{x}\bigoplus1\triangleq\begin{bmatrix} \\\\\pmb{x}\\\\\\1 \end{bmatrix} =\begin{bmatrix} x_1\\.\\.\\.\\x_D\\1 \end{bmatrix} xxx^=xxx1xxx1=x1...xD1
w ^ = w ⨁ b ≜ [ x 1 ] = [ w 1 . . . w D b ] \hat{\pmb{w}}=\pmb{w}\bigoplus b \triangleq\begin{bmatrix} \\\\\pmb{x}\\\\\\1 \end{bmatrix} =\begin{bmatrix} w_1\\.\\.\\.\\w_D\\b \end{bmatrix} www^=wwwbxxx1=w1...wDb

其中 ⨁ \bigoplus 定义为两个向量的拼接操作。

下文直接以 w \pmb{w} www x \pmb{x} xxx 分别表示增广权重向量和增广特征向量,线性模型简化为 f ( x ; w ) = w T x f(\pmb{x};\pmb{w})=\pmb{w}^T\pmb{x} f(xxx;www)=wwwTxxx

参数学习

给定一组包含 N N N 个训练样本的训练集 D = { ( x ( n ) , y ( n ) ) } n = 1 N \mathcal{D}=\{(\pmb{x}^{(n)},y^{(n)})\}^N_{n=1} D={ (xxx(n),y(n))}n=1N,希望学习一个最优的线性回归的模型参数 w \pmb{w} www

介绍四种参数估计方法。

经验风险最小化

首先,由于线性回归为回归问题,损失函数使用平方损失函数

根据经验最小化准则,训练集 D \mathcal{D} D 上的经验风险定义为
R ( w ) = ∑ n = 1 N L ( y ( n ) , f ( x ( n ) ; w ) ) = 1 2 ∑ n = 1 N ( y ( n ) − w T x ( n ) ) 2 = 1 2 ∣ ∣ y − X T w ∣ ∣ 2 , \begin{aligned} \mathcal{R}(\pmb{w}) &= \sum^N_{n=1}\mathcal{L}(y^{(n)},f(\pmb{x}^{(n)};\pmb{w}))\\ &= \frac{1}{2}\sum^N _{n=1}(y^{(n)}-\pmb{w}^T\pmb{x}^{(n)})^2\\ &= \frac{1}{2}||\pmb{y}-\pmb{X}^T\pmb{w}||^2,\end{aligned} R(www)=n=1NL(y(n),f(xxx(n);www))=21n=1N(y(n)wwwTxxx(n))2=21yyyXXXTwww2,
首先,简化起见,省略了 1 N \frac{1}{N} N1

其中, y = [ y ( 1 ) , … , y ( N ) ] T ∈ R N \pmb{y}=[y^{(1)},\dots,y^{(N)}]^T \in \mathbb{R}^N yyy=[y(1),,y(N)]TRN 是由所有样本的真实标签组成的列向量,而 X ∈ R ( D + 1 ) × N \pmb{X} \in \mathbb{R}^{(D+1)\times N} XXXR(D+1)×N 是由所有样本的输入特征 x ( n ) , … , x ( n ) \pmb{x}^{(n)},\dots,\pmb{x}^{(n)} xxx(n),,xxx(n) 组成的矩阵:
X = [ x 1 ( 1 ) x 1 ( 2 ) ⋯ x 1 ( N ) ⋮ ⋮ ⋱ ⋮ x D ( 1 ) x D ( 2 ) … x D ( N ) 1 1 … 1 ] X=\begin{bmatrix}x^{(1)}_1 & x^{(2)}_1& \cdots & x^{(N)}_1 \\\vdots & \vdots & \ddots & \vdots \\ x^{(1)}_D& x^{(2)}_D& \dots & x^{(N)}_D\\ 1& 1& \dots & 1\\ \end{bmatrix} X=x1(1)xD(1)1x1(2)xD(2)1x1(N)xD(N)1
风险函数 R ( w ) \mathcal{R}(\pmb{w}) R(www) 是关于 w \pmb{w} www 的凸函数,其对 w \pmb{w} www 的偏导数为:
∂ R ( w ) ∂ w = 1 2 ∂ ∣ ∣ y − X T w ∣ ∣ 2 ∂ w = − X ( y − X T w ) , \begin{aligned} \frac{\partial\mathcal{R}(\pmb{w})}{\partial\pmb{w}} &=\frac{1}{2}\frac{\partial||\pmb{y}-\pmb{X}^T \pmb{w}||^2}{\partial\pmb{w}}\\ &=-\pmb{X}(\pmb{y}-\pmb{X}^T\pmb{w}), \end{aligned} wwwR(www)=21wwwyyy

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值