机器学习基础知识-神经网络与深度学习学习笔记（二）

最新推荐文章于 2024-05-10 01:56:04 发布

Doit_行之

最新推荐文章于 2024-05-10 01:56:04 发布

阅读量843

点赞数 1

分类专栏：学习心得文章标签：深度学习机器学习

本文链接：https://blog.csdn.net/qq_31456593/article/details/77865155

版权

学习心得专栏收录该内容

35 篇文章 6 订阅

订阅专栏

机器学习基础知识-神经网络与深度学习学习笔记（二）

最近在学习复旦邱锡鹏老师的《神经网络与深度学习》，并对书中推荐的论文进行了阅读。感觉这本书对深度学习讲解得很好，即有全面严谨的讲述，也有高屋建瓴的理解。
本文的行文结构是按邱老师的书籍结构来的，并结合自己的理解总结了书籍中的相关要点。想要对神经网络和深度学习有更好了解的，推荐大家看邱老师写的《神经网络与深度学习》。

本文地址：http://blog.csdn.net/qq_31456593/article/details/77865155

机器学习是对能通过经验自动改进的机器学习算法的研究。

从观测数据中学到规律，并用这种规律预测未知数据。

2.1机器学习定义

机器学习就是给定训练数据 $x^{(i)},y^{(i)},i\in N$ （其中 $x^{(i)}为训练样本,y^{(i)}为训练标签$ ），学习一个决策函数f(x)来预测 $x^{(i)},y^{(i)}$ 之间的关系，是其可用过新数据x来预测其标签y：

y = f (ϕ (x), θ)

$y=f(\phi(x),\theta)$
其中

ϕ(x)∈Rd为x的特征表示，一般为向量，θ是f的参数 $\phi(x)\in {\mathbb{R}} ^d为x的特征表示，一般为向量，\theta是f的参数$
机器学习就是要提取特征

ϕ(x) $\phi(x)$ ,然后建立模型

f(ϕ(x),θ) $f(\phi(x),\theta)$ ,通过训练集进行训练求得最优参数

θ∗ $\theta ^*$ ,从而使之能对如何输入x做出正确的预测。

2.1.1机器学习类别

按训练数据提供的信息和反馈的方式的可以将机器学习分为以下几类

-	监督学习	非监督学习	增强学习
输入	有标记数据	无标记数据	动作
反馈方式	直接反馈	无反馈	奖励
目标	分类、预测	发现隐藏结构	动作

监督学习（supervised learning）：
利用输入x和y来学习模型参数，以对新输入数据所得的y_与真实的标签y相同。根据标签y的不同，监督学习可以分为分类问题和回归问题：
分类问题（classification）- y为离散值;此时 $f$ 又称分类器，可对输入数据进行分类。根据类别数量不同，分为二分类（binary classification）、多分类（multi-class classification）
回归问题（regression）- y为连续值；使预测的y_尽量接近y。

非监督学习（unsupervised learning）：
通过学习不包含标签的数据学习一些有用的信息。常见的有：聚类（clustering）、降维，密度估计等。

增强学习（Reinforction learing）：
又称强化学习，强调如何基于环境做出一系列动作，已获得最佳的收益。每做一个动作不一定立即收益。不需要显式的用输入\输出对的方式训练，是在线学习。

2.1.2常见基本概念

数据：计算机可以处理的对象，可以是数字、字母、符号。对于不同的场景可以是图像、语音、文字、传感器数据。

样本：按一定抽取规则或概率分布P，从样本空间 $\chi$ 取出的数据。一张灰度图片样本空间为 $[0,255]^N$ ,N为像素数，句子（长度L）的样本空间为 $\nu ^L,\nu$ 为词典集合。

特征：表示样本的一组固定属性或特征，一般用向量表示，也称特征向量。对于一个样本如果由d个特征表示，则特征向量 $\Phi \in \mathbb{R}^d$ 。

数据集 ：一组样本集合称作数据集。数据集包含训练集和测试集。

参数： $f(x,\theta)$ 中，需要通过学习算法训练数据进行学习的 $\theta$ 。

超参数 ：定义模型结构或训练策略的参数。超参数的优化是组合优化，难以用学习算法学习，经验性较强。

特征学习 ：自动学习稳定有效的特征，也叫表示学习。特征学习有2种，特征选择和特征提取。
特征选择：从特征集合中选择较为有效稳定的特征。
特征提取：将特征映射到拥有更加稳定有效特征的特征空间。

3.2机器学习模型

机器学习是从有限的观测数据中学习出一般性规律。

以监督学习为例，训练集 $(x,y)\in \chi \times \gamma,是从\chi,\gamma 的联合空间的某个未知分布p(x,y)中随机产生的$ 。其中p是不随时间变换的，这样才有学习的语义。所以数据集D是由N个独立同分布（Indentically and Independly Distributed,IID）的样本组成。

对于样本空间 $(x,y)\in \chi \times \gamma$ ,存在目标函数g: $\chi \to \gamma$ 使得
g(x)=y
机器学习要做的就是找到一个函数f(x),使得 $\forall x,y有f(x)$ ~ $y。f(x)又称假设，一个好的f应该尽量在（x,y）取和目标函数一样的值。f在潜在分布p（x,y）上的期望误差为$
$\cal{R}=\Bbb{E}_{(x,y)\sim p(x,y)}[\cal{L}(f(x),y)]$
其中 $\cal{L}(f(x),y)$ 为损失函数。实际上我们无法计算 $\cal{R}_f$ ，不过我们可以计算经验误差，即数据集上的错误率。

R^D (f) = 1 N \sum i = 1 n L (f (x (i)), y (i))

${\cal \hat{R}_D}(f)={1 \over N}\sum_{i=1}^n{\cal L}(f(x^{(i)}),y^{(i)})$
期望误差和经验误差之间的差距叫泛化误差

G = R (f) - R^D (f)

$G=\cal{R}(f)-\cal{\hat{R}_D}(f)$
泛化误差可以衡量一个机器学习模型是否能够很好的泛化到未知数据。
因为我们不知道真实目标函数g(x),我们只能根据经验确定一个函数集合

H $\cal{H}$ ,并通过训练寻找最优的假设

f(x) $f(x)$ ，及其泛化误差比较低。

2.3风险函数与损失函数

给定 $训练集\cal{D}和模型f(x,\theta)$ ,机器学习训练的目的就是找到最优的 $\theta$ ,而我们一般实验损失函数 $\cal{L}(f(x),y)$ 来评价我们是否找到来足够好的 $\theta$ 。

常见损失函数

0-1损失函数（0-1 loss function）

L (y, f (x, θ)) = {0, 1, if y = f (x, θ) if y \neq f (x, θ)

$\cal{L}(y,f(x,\theta))= \begin{cases} 0, &\text{if $y=f(x,\theta)$}\\ 1, &\text{if $y\neq f(x,\theta)$} \end{cases}$
平方损失函数（quadratic loss function）

L (y, y^) = (y - f (x, θ)) 2

$\cal{L}(y, \hat{y})=(y-f(x,\theta))^2$
交叉熵损失函数（cross entropy loss function）

L (y, f (x, θ)) = - \sum i = 1 C y i f i (x, θ)

$\cal{L}(y,f(x,\theta))=-\sum_{i=1}^Cy_if_i(x,\theta)$

Hinge损失函数（hinge loss function）

L (y, f (x, θ)) = m a x (0, 1 - y f (x, θ))

$\cal{L}(y,f(x,\theta))=max(0, 1-yf(x,\theta))$
Hinge损失函数中y为1或-1.

风险函数：

R e m p (θ) = 1 N \sum i = 0 N L (y (i), f (x (i), θ))

${\cal{R}_{emp}}(\theta) = {1 \over N} \sum_{i=0}^N{\cal L}(y^{(i)}, f(x^{(i)},\theta))$
该风险函数是由已知训练数据计算的，所以又称经验风险函数，我们利用参数的经验风险函数以逼近期望风险的最小值，这就是我们常说的经验风险最小化原则，即我们需要寻找

θ∗ $\theta ^*$ 使得经验风险函数最小。

θ * = arg min θ R e m p (θ)

$\theta^*=\mathop{\arg\min}_{\theta} {\cal R_{emp}}(\theta)$

因为训练数据只是真实数据的一个小的子集，为了避免过拟合，我们可以在经验风险最小化原则的基础上加上正则化，即结构风险最小化原则。

θ * = arg min θ R e m p (θ) + λ ∥ θ ∥ 2

$\theta ^* = \mathop{\arg\min}_{\theta}{\cal R}_{emp}(\theta)+ \lambda \| \theta \| _2$

$\|\theta \|_2$ 是正则化项，用来减少参数空间，避免过拟合， $\lambda$ 用来控制正则化强度。

判别函数

在特征空间如果可以用f(z)=0的决策平面可以将不同的类别分隔开，则f(z)就是判别函数。

2.4参数学习算法

学习算法就是如何通过训练样本学习，自动学习决策函数的参数的算法。不同机器学习算法的区别就是决策函数和学习算法的区别。

一般，感知器使用在线被动更新方法学习参数，logistic使用梯度下降，支持向量机使用SMO(sequential minimal optimization )算法。

在选择好适当的风险函数后，参数学习就是要找 $\theta^*$ 使得风险函数最小化，这样我们就将机器学习的问题转化为一个最优化的问题。

批量梯度下降算法：从全体样本在 $\theta$ 的梯度的反方向上不断降低风险函数。

θ t + 1 = θ t - α \partial R ( θ ) \partial θ t = θ t - α \sum i = 0 N \partial L ( θ t ; x ( i ) , y ( i ) ) \partial θ

$\begin{align} \theta_{t+1} & =\theta_t -\alpha {\partial{\cal R}(\theta) \over \partial \theta_t} \\ & =\theta_t-\alpha \sum_{i=0}^N{\partial{\cal L}(\theta_t;x^{(i)},y^{(i)}) \over \partial \theta} \end{align}$
其中搜索步长

α $\alpha$ 叫做学习率。

随机梯度下降算法： Stochastic Gradient Discent(SGD)每个样本都按梯度下降的方法进行更新。