NPL Stanford-4.神经网络入门

最新推荐文章于 2024-03-06 23:43:30 发布

叁柒君

最新推荐文章于 2024-03-06 23:43:30 发布

阅读量1.1k

点赞数

分类专栏： NLP

本文链接：https://blog.csdn.net/qq_25051779/article/details/67671618

版权

NLP 专栏收录该内容

3 篇文章

订阅专栏

本文介绍了神经网络的基础，从单个神经元开始，讲解了单层神经网络、前馈计算以及最大间隔目标函数的概念。还探讨了反向传播在参数更新中的作用，并提到了梯度下降法。内容适合NLP与深度学习初学者。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

NPL Stanford-4.NPL with DL

@(NPL)[阅读笔记]

NPL Stanford-4NPL with DL

1. 从一个神经元开始

神经元是神经网络最基本的组成成分，它接收n个输入，产生单个输出。不同的神经元有着不同的参数（或称为权重），但本质上来说它依然在计算，使用某个特定的计算公式。神经元的计算公式(被称为激活函数(activition function))，最常用的就比如下面的sigmoid函数，它接收了n维向量 $x$ ，产生了输出 $a$ 。
注： $w$ 是同样n维的权重向量， $b$ 是偏差(bias)。

a = 1 1 + e x p ( - ( w T x + b ) )

$a = \frac{1}{1+exp(-(w^Tx+b))}$

图示

)

2. 单层神经网络

单层神经网络就是多个神经元的排列，对每个神经元而言，他们接受一样的输入（注：不是全部模型都是接受相同的输入，此处方便理解），却可能产生完全不同的输出。原因在于每一个神经元的权重向量和偏差不一样，可以认为这是对输入向量不同特征的考量。

为了表示方便，我们定义如下：

其中 $z=w^Tx+b$

图示

3. 前馈计算

从前面我们看到单层神经网络每一个神经元都有一个输出，如果有m个神经元就会输出m维的向量。但是如果我们需要做一个分类，这样的输出是不合适的，因为我们希望的是一个值。因此我们可以使用另一个矩阵 $U\in R^{m\times 1}$ 产生一个（非标准的）值：

s = U T a = U T f (w T x + b)

$s=U^Ta=U^Tf(w^Tx+b)$

f $f$ 即为激活函数。
注：如果输入的

x∈R20 $x\in R^{20}$ ，而一层神经元个数为8，那么

w∈R8×20 $w\in R^{8\times20}$ ,

b∈R8 $b\in R^8$ ,

U∈R8×1 $U\in R^{8\times 1}$

s∈R $s\in R$ .

4. Maximum Margin Objective Function

与大多数的机器学习模型一样，神经网络也需要一个最优化的目标函数。Maximum Margin Objective就是其中一种很流行的方式，背后的思想也很简单：保证 "true" 标签的样本计算得到的得分高于"false"标签的样本得分。

比如，带有 “true” 标签的句子 “Museums in Paris are amazing” 标记为 $s$ ，而带有 “false” 标签的句子 “Not all museums in Paris” 标记为 $s_c$ . 当 $s_c-s \gt 0$ 时，即”false”样本得到的分数大于”true”样本，那么此时error为 $(s_c-s)$ ，反之为0。所以我们的最优化目标可以写成：