机器学习04

最新推荐文章于 2024-10-07 06:31:57 发布

@小冯@

最新推荐文章于 2024-10-07 06:31:57 发布

阅读量991

点赞数 18

分类专栏：吃瓜之路文章标签：机器学习人工智能

本文链接：https://blog.csdn.net/qq_52052302/article/details/135187925

版权

吃瓜之路专栏收录该内容

5 篇文章 0 订阅

订阅专栏

本文介绍了M-P神经元和感知机的概念，包括它们的激活函数和学习策略。讨论了感知机如何通过梯度下降优化损失函数，以及神经网络（特别是多层前馈网络）在处理线性回归和分类任务中的自动特征学习。提到深度学习模型如CNN和RNN的应用优势。

摘要由CSDN通过智能技术生成

机器学习04

- - task04

task04

M-P神经元

M-P神经元（用来模拟生物行为的数学模型），最后通过激活函数（“抑制“：j减 $\theta$ 大于0，”激活”：减 $\theta$ 小于0）
$y=f(\sum_{i-1}^nw_ix_i-\theta)=f(w^Tx+b)$
单个M-P神经元：感知机（sgn激活函数），对数几率回归（sigmoid激活函数）
多个M-P神经元：神经网络

感知机

激活函数sgn（阶跃函数）的神经元 $\theta$ 是感知模型的参数，阈值， $w$ 是权重
$y=sgn(w^Tx-\theta)= \left\{\begin{matrix} 1 ,w^Tx-\theta\geqslant 0 \\ 0 ,w^Tx-\theta\lt0 \end{matrix}\right.$
从集合角度，给定一个线性可分的数据集T，感知机的学习目标是求得能对数据集T的正负样本完全正确划分的超平面，其中 $w^Tx-\theta=0$ 即为超平面方程
n维超平面：
- 方程不唯一
- 法向量 $w$ 垂直于超平面
- 法向量 $w$ 和位移b确定一个唯一超平面
- 法向量 $w$ 指向的那一半空间为征空间，另一半为负空间
学习策略：随机初始化 $\boldsymbol{w},b$ ，将全体训练样本带入模型找出误分类样本，假设误分类样本集合为 $M\subseteq T$ ，两种情况：
- $w^Tx-\theta\geqslant 0$ ,样本模型输出值为 $\hat{y}=1$ ，样本真实标记为y=0
- $w^Tx-\theta\lt 0$ ,样本模型输出值为 $\hat{y}=0$ ，样本真实标记为y=1
- 综合两种情形，以下公式恒成立
  $(\hat{y}-y)(\boldsymbol{w}^T-\theta)\geqslant0\\ 所以，给定数据集T，其损失函数可以定义为：\\ L(\boldsymbol{w},\theta)=\sum_{x\in M}(\hat{y}-y)(\boldsymbol{w}^Tx-\theta)\\ 显然此损失函数是非负，如果没有误分类点，损失函数值是0，而且，误分类点越少，误分类点离超平面越近，损失函数值越小$
怎么让损失函数变小
- 给定数据集 $T=\{(\boldsymbol{x_1},y_1),(\boldsymbol{x_2},y_2),......,(\boldsymbol{x_N},y_N)\}$ 其中 $\boldsymbol{x_i}\in R^n,y_i\in \{0,1\}$ ,求参数 $\boldsymbol{w},\theta$ ,使其为极小化损失函数的解：
  $\min\limits_{\boldsymbol{w},\theta} {L(\boldsymbol{w},\theta})=\min\limits_{\boldsymbol{w},\theta} \sum_{\boldsymbol{x_i}\in M}(\hat{y}_i-y_i)(\boldsymbol{w}^T \boldsymbol{x_i}-\theta)$
  其中 $M\subseteq T$ 为误分类样本集合，若将阈值 $\theta$ 看作固定输出为-1的哑节点，即 $-\theta=-1.w_{n+1}=x_{n+1}.w_{n+1}$ 根据该式，可将要求的极小化问题进一步简化为
  $\min\limits_{\boldsymbol{w}} {L(\boldsymbol{w}})=\min\limits_{\boldsymbol{w}} \sum_{\boldsymbol{x_i}\in M}(\hat{y}_i-y_i)(\boldsymbol{w}^T \boldsymbol{x_i})$
感知学习算法：当误分类样本集合M固定时，那么可以求得损失函数L(w)的梯度为
$\bigtriangledown_wL(\boldsymbol{w})=\sum_{x_i\in M}(\hat{y_i}-y_i)\boldsymbol{x_i}$
感知机学习算法采用梯度下降，就是极小化过程中不是一次使M中所有的误分类点的梯度下降，而是一次随机选取一个误分类点使其梯度下降。所以权重 w的更新公式为
$\boldsymbol{w}\gets \boldsymbol{w} +\Delta \boldsymbol{w}\\ \Delta \boldsymbol{w}=-\eta(\hat{y}-y_i)\boldsymbol{x_i}=\eta(y_i-\hat{y}_i)\boldsymbol{x_i}\\ \eta :学习率$
相应的， $\boldsymbol{w}$ 中的某个分量 $w_i$ 的更新公式为西瓜书公式(5.2),最终解出来的 $\boldsymbol{w}$ 通常不唯一

神经网络

单个神经元分类能力有限，只能分类线性可分的数据集，对于线性不可分的数据集无法，多神经元诞生，神经网络机能做回归，也能做分类，而且不需要复杂的特征工程
只要有包含足够多的神经元隐层，神经网络是以任意精度逼近任意复杂度的一个连续函数，决定模型上限的就是数据
CNN：卷积神经网络：处理图像优越
RNN：循环神经网络，文本处理优越
多层前馈网络：同层不连接，跨层连接
- 与下一层神经元全互连（隐层阈值 $\gamma_h$ ,输出层阈值 $\theta_j$ )，x是d维的特征向量（ $x\in R^d)$
神经网络NN看作一个特征加工函数
$x\in R^d \to NN(\boldsymbol{x}) \to \boldsymbol{y=x^* \in R^l}\\ 单输出线性回归：后面接一个R^l \to R的神经元，例如没有激活函数的神经元\\ y=\boldsymbol{w^Tx^*}+b\\ 分类：后面接一个R^l \to [0,1]的神经元，例如：激活函数为sigmoid函数的神经元\\ y=\frac{1}{1+e^{-(\boldsymbol{w^Tx^*}+b)}}\\ 在模型训练过程中，神经网络NN自动学习提取有用的特征，因此，机器学习项“全自动数据分析又进了一步$
假设多层前馈网络中的激活函数全是sigmoid函数，且当前要完成的任务为一个（多输出）回归任务，因此损失函数可以采用均方差（分类任务则用交叉熵）。对于某个训练样本 $\boldsymbol{x_k,y_k}$ ,则单个样本的均方误差（损失）为
$E_k=\frac{1}{2}\sum_{j=1}^l(\hat{y}_j^k-y_j^k)^2$
误差逆传播算法（BP）：基于随机梯度下降的参数更新算法
$\boldsymbol{w}\gets \boldsymbol{w} +\Delta \boldsymbol{w}\\ \Delta \boldsymbol{w}=-\eta \bigtriangledown_wE\\ \eta :超参数，自己设置\\其中只需要推导出\bigtriangledown_wE这个损失函数E关于参数w的一阶偏导数（梯度）即可（链式求导）。\\ 由于NN(x)通常是及其复杂的非凸函数，不具备像凸函数这种良好的数学性质\\因此随机梯度下降不能保证一定能走到全局最小值点，更多情况走到的都是局部极小值点$