深度学习笔记10/19——Introduction

Zack Wesson

已于 2023-10-27 13:36:57 修改

阅读量38

点赞数 1

文章标签：深度学习笔记神经网络

于 2023-10-19 16:29:19 首次发布

本文链接：https://blog.csdn.net/qq_35484506/article/details/133925199

版权

——什么是神经网络

ReLU——rectified linear unit 修正线性单元

神经网络就是由这些单独完成将输入转化为输出的神经元组成的，下图是由不同的房价自变量预测房价的图示，神经网络的神奇之处在于只需要输入一个X（特征）就能让程序自发的完成中间步骤从而导出price

每个内部的节点叫做隐藏节点，输入特征的层叫输入层

监督学习（supervised learning）：使用标记
数据集来训练算法，以便对数据进行分类或准确预测结果。

CNN：卷积神经网络通常用于图像领域，自动驾驶领域

RNN：循环神经网络通常用语序列数据的处理比如音频，语言

同时监督学习也可用于结构化数据（有固定格式的数据，比如表格）和非结构化数据（图片，音频，文字）处理

——为什么深度学习会兴起

DATA：数据量巨大，数据收集能力飞速发展，规模一直在推动深度学习的进步（Scale has been driving deep learning progress）,不仅指神经网络的规模，也指数据的规模。 * m表示训练规模，只有在训练规模非常大时，深度学习的能力才比其他方法领先
Computation：CPU，GPU的发展有助于加快迭代速度，使得研究人员的模型迭代速度更快，从而使他们产生更多想法。
Algorithms：算法方面的创新都是为了让神经网络运行更快。

——二分分类（binary classification）

目标：

训练出一个训练器，它以图片的特征向量x输入，预测输出的结果为y——只能是1或者0，来表示是或者否。

分类算法是有监督的，事先知道样本所属的真是类别，用某种算法挖掘样本类别划分的内在规律，实现对新样本的类别划分。

符号约定：

$(x,y)$ 表示一个单独的样本，x是n维的向量，y表示二分类的结果。如 $(x_2,y_2)$ 表示样本2。

小写字母m表示训练样本的个数，m_train表示训练集个数，m_test表示测试集的个数。

定义一个 $n*m$ 矩阵 $X$ 表示训练集，其中训练样本 $x1, x2, x3...$ 是该训练集的列向量。矩阵的列数就是样本个数 $m$ ，矩阵的行数记为 $n$ 。Python中输出该矩阵的维度的命令是X.shape = (nx, m)。这就是如何将输入用矩阵表示。

定义一个 $1*m$ 矩阵 $Y$ ，将输出 $y1, y2, y3...$ 作为矩阵的列向量按行优先排列，列数代表样本个数 $m$ 。Python中输出该矩阵的维度的命令是Y.shape = (1, m)。

Logistic Regression 逻辑回归

用在监督学习，输出y标签是0或者1这类二分问题中，是一种广义的线性回归分析模型。

sigmoid函数（逻辑分布的概率函数）

sigmoid函数的来源：

将0-1分布中x的概率函数化为指数族分布型再进行同构

得到以下等式：

$\theta =ln\frac{\gamma }{1-\gamma } = W^{T}X$

$\phi (Y) = -ln(1-\gamma )$

$A(\theta ) = -ln(1-\gamma )$

然后解出 $\gamma =\frac{1}{1+e^{-W^{T}x}}$ ，其中 $\gamma =E(y)$ ，即是0-1分布中y输出为1的数学期望,这也就是二分分类的结果,非正即负，也即sigmoid函数。

然后取反函数可以得出 $W^{T}X=g(E(y))=g(\gamma )=ln\frac{\gamma}{1-\gamma}$ ，此为对数几率函数

sigmoid函数的性质：

$y=Sigmoid(x)=\frac{1}{1+e^{-x}}$

当x趋向于正无穷，y趋向于1，反之趋向于0
sigmoid(x)+sigmoid(-x)=1
函数图像关于点(0,1/2)中心对称
Sigmoid函数的导数为： ${Sigmoid(x)}'=Sigmoid(x)[1-Sigmoid(x)]$

sigmoid函数在逻辑回归中的作用

因为普通的线性回归会导致概率P大于1或者小于0，因此需要找到一个上界为1下界为0的函数来表示概率。所以有

$X^{T}=\begin{pmatrix} x_{1} & x_{2} & ... & x_{n} \end{pmatrix}$

$W^{T}=\begin{pmatrix} W_{1} & W_{2} & ... & W_{n} \end{pmatrix}$

其中W为样本权重，因此 $Sigmoid(W^{T}X_{1})=E(y_{1})$ ，以此类推可以求得 $Y^{T}=\begin{pmatrix} y_{1} &y_{2} &... &y_{n} \end{pmatrix}$ ——即样本为正的概率的列向量集合

在 $Sigmoid(W^{T}X)$ 中需要在自变量中加入未知参数偏置量b，使得概率 $\gamma=Sigmoid(W^{T}X+b)$ .

因此在这个样本数据集中未知参数有N+1个： $\begin{pmatrix} b &W_1 &... &W_n \end{pmatrix}$ ，这些未知参数是共享的。

总体的流程图就是：

和我们的神经元是类似的，其中Sigmoid函数被称为激活函数。

Zack Wesson

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
1
评论
深度学习笔记10/19——Introduction

ReLU——rectified linear unit 修正线性单元神经网络就是由这些单独完成将输入转化为输出的神经元组成的，下图是由不同的房价自变量预测房价的图示，神经网络的神奇之处在于只需要输入一个X（特征）就能让程序自发的完成中间步骤从而导出price每个内部的节点叫做隐藏节点，输入特征的层叫输入层监督学习（supervised learning）：使用标记数据集来训练算法，以便对数据进行分类或准确预测结果。CNN：卷积神经网络通常用于图像领域，自动驾驶领域RNN。
复制链接

扫一扫