基于深度学习的自然语言处理--笔记（第四章）

最新推荐文章于 2024-07-25 10:32:52 发布

以牺牲自由为代价的自由

最新推荐文章于 2024-07-25 10:32:52 发布

阅读量157

点赞数

文章标签：自然语言处理

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_42623328/article/details/108241102

版权

@[TOC]第4章前馈神经网络

4.2 数学表示

最简单的神经网络称作感知器。它是一个简单的线性模型：
在这里插入图片描述其中， $W$ 是权重矩阵， $b$ 是偏置项。为了能超越线性函数，我们引进一个非线性的隐藏层，这样就能得到带有单一隐层的多层感知器（MLP1）。
$g$ 是作用于每个元素的非线性方程（也称作激活函数或非线性）， $g$ 在网络表示复杂函数的能力中，起了至关重要作用。没有 $g$ 的非线性，神经网络只能表示输入的线性变换。例如：
在这里插入图片描述由线性变换产生的向量成为层，或者称完全连接的或仿射的。具有多个隐层的网络称深层网络。
与线性模型类似，神经网络的输出是一个 $d_{out}$ 维向量。 $d_{out}$ =1 时，网络的输出是一个标量。这样的网络在关注输出值的情况下可以用于回归（或打分）问题；在关注输出值的符号时，可以用于二分类问题。满足 $d_{out}$ >k的网络可以用于k分类问题，这需要将每个维度与一个类别相关联，然后寻找具有最大值的维度。如果输出向量是正的并且各项和为1，则输出可以被解释为在各类别上的分布。
参数与输入一起决定了网络的输出，训练算法负责
设置参数的值，使得网络得到正确的预测结果。

4.4 常见的非线性函数

给定任务选取非线性函数是一个经验问题

sigmoid : $p(x)=1/(1+e^{-x})$
一个S型的函数，它将每一个值 $x$ 变换到区间[0,1]中。
tanh(双曲正切): $tanh(x)=(e^{2x}-1)/(e^{2x}+1)$
一个S型函数，它将每一个值 $x$ 变换到区间[0,1]中。
hard tanh激活函数是tanh函数的近似
hardtanh(x)=-1,x<-1;
hardtanh(x)=1,x>1;
hardtanh(x)=x,x=other;
修正线性单元ReLU

以牺牲自由为代价的自由

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
基于深度学习的自然语言处理--笔记（第四章）

@[TOC]第4章前馈神经网络4.2 数学表示最简单的神经网络称作感知器。它是一个简单的线性模型：其中，WWW是权重矩阵，bbb是偏置项。为了能超越线性函数，我们引进一个非线性的隐藏层，这样就能得到带有单一隐层的多层感知器（MLP1）。ggg是作用于每个元素的非线性方程（也称作激活函数或非线性），ggg在网络表示复杂函数的能力中，起了至关重要作用。没有ggg的非线性，神经网络只能表示输入的线性变换。例如：由线性变换产生的向量成为层，或者称完全连接的或仿射的。具有多个隐层的网络称深层网络。与线
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。