机器学习笔记——第2篇

最新推荐文章于 2025-01-13 13:36:42 发布

nnbs

最新推荐文章于 2025-01-13 13:36:42 发布

阅读量497

点赞数

分类专栏：机器学习文章标签：机器学习

机器学习专栏收录该内容

4 篇文章

订阅专栏

本文介绍了如何使用神经网络进行机器学习的基本原理与实践方法。详细解释了神经元、激活函数的作用，并通过实例演示了如何搭建多层神经网络模型，包括前向传播与反向传播的计算过程。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

文章作者是我的一位大神学长陈雨学长~，征得学长同意后将文章转载到了我的blog上，特在此感谢学长~

代码在学长的github上：
https://github.com/unnamed2/MDL
欢迎猛击

自己实现的机器学习2

自己实现的机器学习(2):

2.0 神经元

2.0.0 模型

历史上的某个伟人曾经用计算机里的神经元模拟大脑试图构建高智能的AI: 虽然人脑中几十亿的神经元数量压倒性的战胜了当时计算机计算速度,但是这个方法被改进演化之后依旧广泛流传:

他完成了这样的计算:其中W,B是矩阵

O u t p u t = a c t i v a t i o n (W ˙ x + B)

$Output = activation(W \dot{} x + B)$

2.0.1 activation:激活函数

$Sigmoid$ : $Sigmoid(x)=\frac{1}{1 + e^{-x}}$ 从无穷到概率的映射:
$ReLU$ : $ReLU(x) = max(0,x)$ Rectified linear unit 快速稳定的导数
$Tanh$ :无穷到1 的映射:

激活函数可以视为对神经网络本身的输出值是一个进一步的处理,即特征的保留和删除,根据不同的模型,选择不同的激活函数,可以训练得到更好的模型.

线性代数的计算不会改变其线性的特点,比如对于在二维平面上某区间上随机数X来说如果X服从均匀分布,那么无论X经过怎么样的线性变换,最终仍然会在某区间上服从均匀分布.

激活函数很大的一个作用就是加入非线性因素来解决线性运算解决不了的问题.

2.1 更为复杂的模型

使用一个即兴的伪代码来说明一下上次的多项式模型:

featrue = InputVar({1,1});//多项式输入一个x
label = InputVar({1,1});//同时输出一个值

A = Parameter({3,1});//要被训练的参数

Z = Polynomial(input,A);//计算多项式的值

Err = SquareError(Z1 - label);//训练使用平方误差函数

对应C++代码也很简单

现在我们将要建立一个更复杂的模型来做一些更复杂的事情.

例如这样的一个网络模型:

三层神经网络

用这个网络分析一个28x28的图片:

input = InputVar({784,1});//输入是784 x 1的矩阵 或者叫向量,这个矩阵是输入的数据
label = InputVar({10,1});//这个是标签数据 如果图片写的是5这个数字那么label[5] = 1.0f;
                         //其他为0.0f;其余数字同理
W0 = Parameter({30,784});//W0是一个30 x 784的矩阵 ,这个矩阵是将要学习的parameters之一
B0 = Parameter({30,1});  //B0,W1,B1同上
W1 = Parameter({10,15});
B1 = Parameter({10,1});

Z0 = Sigmoid(W0 * input + B0);//隐含层输出 * 是矩阵乘法
Z1 = Sigmoid(W1 * Z0 + B1);//输出层输出 , Z1是我们的函数输出的结果

Err = SquareError(Z1 , label);//平方误差函数 

//......

一点一点的来看这个函数:

对于整个的hidden layer里的每个神经元的输出 $Z_i$ :(假设hidden layer有M个神经元,input layer有N个神经元,它们的输出是 $input_0$ 到 $input_{N-1}$ )

Z j = S i g m o i d (\sum i = 0 N - 1 i n p u t i ˙ w j i + b j)

$Z_j =Sigmoid(\sum_{i = 0}^{N-1}input_i\dot{}w_{ji} +b_ j)$
这里

wji $w_{ji}$ 是 input layer第i个神经元到 hidden layer第j个神经元的输出.

写成向量式:

Z 0 = S i g m o i d (W 0 ˙ i n p u t + B 0);

$Z_0 = Sigmoid(W_0\dot{}input + B_0);$
这里W是输入层到隐含层的权重矩阵,b是 hidden layer的偏置向量,Z是隐含层输出,同理 output layer的输出W1:

Z 1 = S i g m o i d (W 1 ˙ Z 0 + B 1)

$Z_1 = Sigmoid(W_1 \dot{} Z_0 + B_1)$

2.2反向传播

对于这种复杂的模型误差函数对每个 $parameter$ 的偏导数并不是很容易求得但是一点一点看每一个函数的偏导数:

Z0 = Sigmoid(W0 * input + B0);

这里令

a j = \sum i = 0 N - 1 i n p u t i ˙ w j i + b j

$a_j = \sum_{i = 0}^{N-1}input_i\dot{}w_{ji} +b_ j$

Z 0 j = S i g m o i d (a j)

$Z_{0j} =Sigmoid(a_j)$

所以有:

d Z 0 j d a j = S i g m o i d' (a j)

$\frac{dZ_{0j}}{da_j} = Sigmoid'(a_j)$

\partial a j \partial w j i = i n p u t i; \partial a j \partial b j = 1

$\frac{\partial a_j}{\partial w_{ji}} = input_i ; \frac{\partial a_j}{\partial b_j} = 1$

\partial Z 0 j \partial w j i = d Z 0 j d a j ˙ \partial a j \partial w j i = S i g m o i d' (a j) ˙ i n p u t i

$\frac{\partial Z_{0j}}{\partial w_{ji}} =\frac{dZ_{0j}}{da_j}\dot{}\frac{\partial a_j}{\partial w_{ji}} = Sigmoid'(a_j)\dot{} input_i$

把这个写成容易看的简洁的矩阵乘法就是

\partial Z 0 \partial W 0 = S i g m o i d' (a) * i n p u t T i;

$\frac{\partial Z_0}{\partial W_0} =Sigmoid'(a) * input_i^T ;$
我们根据链式法则推导出来

Z0 $Z_0$ 对

W0,B0 $W_0,B_0$ 的每个参数偏导数的计算方法.这种链式法则同样适用于各个部分,我们从下道上的一个函数一个函数的求他们对输入的偏导数:

\partial E r r \partial Z 1 = e r r = Z 1 - l a b e l s

$\frac{\partial Err}{\partial Z_1} = err = Z_1 - labels$

\partial Z 1 \partial W 1 = S i g m o i d' (a) * (Z 0) T; \partial Z 1 \partial Z 0 = S i g m o i d' (a) * (W 1) T; \partial Z 1 \partial B 1 = 1;

$\frac{\partial {Z_1}}{\partial W_1} = Sigmoid'(a) * (Z_0)^T ; \frac{\partial Z_1}{\partial Z_0} =Sigmoid'(a) * (W_1)^T ; \frac{\partial Z_1}{\partial B_1} =1 ;$