[学习笔记]数据挖掘-week4

最新推荐文章于 2024-07-24 16:19:34 发布

午夜涂猪男

最新推荐文章于 2024-07-24 16:19:34 发布

阅读量66

点赞数

分类专栏：数据挖掘文章标签：数据挖掘深度学习机器学习

本文链接：https://blog.csdn.net/qq_19078137/article/details/120756922

版权

数据挖掘专栏收录该内容

3 篇文章 0 订阅

订阅专栏

人工神经网络

单一神经元

一个单独的神经元又称为感知机（perceptrons）。公式定于如下：

$\begin{aligned} o & = \begin{cases} 1,\quad & \text{if}\quad\sum_{i=0}^nw_i\cdot x_i > 0\\ 0,\quad & \text{otherwise} \end{cases} \\[2ex] o(x_1,...,x_n) & = \begin{cases} 1, \quad & \text{if}\quad w_0+w_1\cdot x_1+...+w_n\cdot x_n > 0 \\ 0, \quad & \text{otherwise} \end{cases} \end{aligned}$

上述公式实际是建立了一个判决平面，在坐标轴上将数据一分为二。 $x_i$ 表示输入， $w_i$ 表示权重，其中 $x_0$ 为1， $w_0$ 代表偏置，防止判决平面过原点。

通过调整权重，可以让神经元实现不同的功能，为能够找到最适合的权重，通过梯度下降法（gradient descent）来寻找误差最小的权重。

对误差定义如下：

$E(\vec{w})=\frac{1}{2}\sum_{d\in D}(t_d-o_d)^2$

有 $\frac{1}{2}$ 是因为在后续的过程中会求导。 $t$ 为期望的输出， $o$ 为实际的输出。训练集用 $D$ 表示。将整个样本集的误差求和的方式为批处理学习（batch learning）。通过误差函数对权重求偏导，可以得到如何更改权重。

$\nabla E(\vec{w})=\left[\frac{\partial E}{\partial w_0},...,\frac{\partial E}{\partial w_n}\right]\\[2ex] w_i\gets w_i+\Delta w_i \quad where \quad\Delta w_i=-\eta\frac{\partial E}{\partial w_i}$

$\eta$ 表示学习率。而前面加负号用于得到正确的调整方向，当误差对权重求偏导时，数值为正数，表示误差会随着权重的增大而增大，那么就需要减少权重。反之毅然。

$\begin{aligned} \frac{\partial E}{\partial w_i} & = \frac{\partial}{\partial w_i}\frac{1}{2}\sum_{d\in D}(t_d-o_d)^2\\[2ex] & = \frac{1}{2}\sum_{d\in D}\frac{\partial}{\partial w_i}(t_d-o_d)^2\\[2ex] & =\frac{1}{2}\sum_{d\in D}2(t_d-o_d)\frac{\partial}{\partial w_i}(t_d-o_d)\\[2ex] &\text{设}\quad o(x) = w\cdot x \\[2ex] & = \sum_{d\in D}(t_d-o_d)\frac{\partial}{\partial w_i}(t_d-w\cdot x_d) \\[2ex] & = \sum_{d\in D}(t_d-o_d)(-x_d)\\[2ex] &\Delta w_i = \eta\sum_{d\in D}(t_d-o_d)x_{id} \gets\text{Delta Rule} \end{aligned}$

$x_{id}$ 为样本的输入。在更新方式中，若是batch learning，先将所有样本走一遍每次对 $\Delta w_i$ 做更新，最后再将 $\Delta w_i$ 更新到 $w_i$ 中。若是 stochastic learning，则每次计算直接更行到 $w_i$ 中。

感知机只能处理线性可分问题。

多个神经元

由多个神经元组合成的网络为人工神经网络，能够解决线性不可分问题。除输入层以外的神经元在输出时需要使用激活函数。常用的激活函数为：

$sigmoid(x)=\frac{1}{1+e^{-x}}$

该函数的值域为[0,1]之间，输入数据绝对值越接近 0，导数越大。

多层网络

BP

当上图中的 j 是输出层时。
$\begin{aligned} &E_d(\vec{w})=\frac{1}{2}\sum_{k\in output}(t_k-o_k)^2 \\[2ex] &\Delta w_{ji}=-\eta\frac{\partial E_d}{\partial w_{ji}} \\[2ex] &\frac{\partial E_d}{\partial w_{ji}}=\frac{\partial E_d}{\partial net_j}\cdot\frac{\partial net_j}{\partial w_{ji}} \\[2ex] &\frac{\partial E_d}{\partial net_j}=\frac{\partial E_d}{\partial o_j}\cdot\frac{\partial o_j}{\partial net_j} \\[2ex] &net_j \text{表示j的输入}\\[2ex] \frac{\partial E_d}{\partial o_j} &=\frac{\partial}{\partial o_j}\frac{1}{2}\sum_{k\in output}(t_j-o_j)^2 \\[2ex] &=\frac{\partial}{\partial o_j}\frac{1}{2}(t_j-o_j)^2 \\[2ex] &=-(t_j-o_j) \\[3ex] \frac{\partial o_j}{\partial net_j} &= \frac{\partial\sigma(net_j)}{\partial net_j}=o_j(1-o_j) \\[2ex] \frac{\partial E_d}{\partial net_j}&=-(t_j-o_j)o_j(1-o_j) \\[2ex] \Delta w_{ji}&=\eta(t_j-o_j)o_j(1-o_j)x_{ji} \end{aligned}$

对于输出层，整体的原理与感知机是一样的。对于非输出层，差别在于误差计算。输出层的误差通过 $t_j-o_j$ 计算，非输出层的误差是通过后一层的误差乘以两层之间的权重得到。

午夜涂猪男

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
[学习笔记]数据挖掘-week4

人工神经网络单一神经元一个单独的神经元又称为感知机（perceptrons）。公式定于如下：o={1,if∑i=0nwi⋅xi>00,otherwiseo(x1,...,xn)={1,ifw0+w1⋅x1+...+wn⋅xn>00,otherwise\begin{aligned} o & = \begin{cases} 1,\quad & \text{if}\quad\sum_{i=0}^nw_i\cdot x_i > 0\\
复制链接

扫一扫