第一次打卡

最新推荐文章于 2024-08-07 18:20:02 发布

qq_41768189

最新推荐文章于 2024-08-07 18:20:02 发布

阅读量319

点赞数

分类专栏：深度学习文章标签：深度学习

原文链接：https://www.boyuai.com/elites/course/cZu18YmweLv10OeV

版权

深度学习专栏收录该内容

3 篇文章 0 订阅

订阅专栏

线性回归

线性回归假设输出与各个输⼊之间是线性关系，模型为：y^=x*w+b。其中y^=[y1,y2...yn].T是标签，w=[w1,w2...wn]是权重，x=[x1,x2...xn].T是特征，b是偏差。平均损失函数L(w,b)定义为：

在这里插入图片描述
y为预测值,y^为真实值。
优化函数 - 随机梯度下降：先选取一组模型参数的初始值，如随机选取；接下来对参数进行多次迭代，使每次迭代都可能降低损失函数的值。在每次迭代中，先随机均匀采样一个由固定数目训练数据样本所组成的小批量（mini-batch）β，然后求小批量中数据样本的平均损失有关模型参数的导数（梯度），最后用此结果与预先设定的一个正数的乘积作为模型参数在本次迭代的减小量。
在这里插入图片描述
学习率: 𝜂 代表在每次优化中，能够学习的步长的大小
批量大小: β 是小批量计算中的批量大小batch size
在模型训练中，我们希望找出⼀组模型参数，记为w∗, b∗，来使训练样本平均损失最小：

Softmax与分类模型

Softmax函数，或称归一化指数函数，它能将一个含任意实数的K维向量 y “压缩”到另一个K维实向量 y'中，使得每一个元素的范围都在0-1之间，即0≤y'(j)≤1,并且所有元素的和为1。该函数的形式通常按下面的式子给出：

在这里插入图片描述
若y为置信度输出，则softmax运算不改变预测类别输出。
softmax回归模型:

交叉熵损失函数l(Θ):
在这里插入图片描述
即最小化交叉熵损失函数等价于最大化训练数据集所有标签类别的联合预测概率。

多层感知机

多层感知机就是含有至少一个隐藏层的由全连接层组成的神经网络，且每个隐藏层的输出通过激活函数进行变换。多层感知机的层数和各隐藏层中隐藏单元个数都是超参数。以单隐藏层为例并沿用本节之前定义的符号，多层感知机按以下方式计算输出：

在这里插入图片描述
其中Φ表示激活函数。在分类问题中，我们可以对输出O做sofmax运算，并使⽤sofmax回归中的交叉熵损失函数。在回归问题中，我们将输出层的输出个数设为1，并将输出O直接提供给线性回归中使⽤的平⽅损失函数。
激活函数-ReLU函数：该函数定义为ReLU(x)=max(x,0).可以看出，ReLU函数只保留正数元素，并将负数元素清零。ReLu函数是一个通用的激活函数，目前在大多数情况下使用。但是，ReLU函数只能在隐藏层中使用。在选择激活函数的时候可以先选用ReLu函数如果效果不理想可以尝试其他激活函数。
在这里插入图片描述
激活函数-Sigmoid函数函数：该函数定义为sigmoid(x)=1/(1+exp(-x)).sigmoid函数可以将元素的值变换到0和1之间。

激活函数-tanh函数函数：该函数定义为tanh(x)=(1-exp(-2x))/(1+exp(-2x)).tanh（双曲正切）函数可以将元素的值变换到-1和1之间,当输入接近0时，tanh函数接近线性变换。虽然该函数的形状和sigmoid函数的形状很像，但tanh函数在坐标系的原点上对称。
在这里插入图片描述

文本预处理

文本是一类序列数据，一篇文章可以看作是字符或单词的序列，本数据的常见预处理步骤通常包括四个步骤：

1.读入文本
with open(‘路径.txt’, ‘r’) as f:
2.分词（利用工具包spacy，nltk）
import spacy
nlp = spacy.load(‘en_core_web_sm’)
doc = nlp(text)

from nltk.tokenize import word_tokenize
from nltk import data
data.path.append(‘路径’)
print(word_tokenize(text))
3.建立字典，将每个词映射到一个唯一的索引（index）
为了方便模型处理，我们需要将字符串转换为数字。因此我们需要先构建一个字典（vocabulary），将每个词映射到一个唯一的索引编号。
4.将文本从词的序列转换为索引的序列，方便输入模型
使用字典，我们可以将原文本中的句子从单词序列转换为索引序列。

语言模型

在这里插入图片描述
通过马尔可夫假设简化模型，马尔科夫假设是指一个词的出现只与前面n个词相关，即n阶马尔可夫链。基于n-1阶马尔可夫链，我们可以将语言模型改写为：

例如，当n=2时，含有4个词的文本序列的概率就可以改写为：
在这里插入图片描述
如果序列的长度为T，时间步数为n，那么一共有T-n个合法的样本，但是这些样本有大量的重合，我们通常采用更加高效的采样方式。
随机采样：在随机采样中，每个样本是原始序列上任意截取的一段序列，相邻的两个随机小批量在原始序列上的位置不一定相毗邻。
相邻采样：在相邻采样中，相邻的两个随机小批量在原始序列上的位置相毗邻。

循环神经网络基础

在这里插入图片描述
“小罗同学”的理解：
W_xh: 状态-输入权重
W_hh: 状态-状态权重
W_hq: 状态-输出权重
b_h: 隐藏层的偏置
b_q: 输出层的偏置
循环神经网络的参数就是上述的三个权重和两个偏置，并且在沿着时间训练（参数的更新），参数的数量没有发生变化，仅仅是上述的参数的值在更新。循环神经网络可以看作是沿着时间维度上的权值共享。

裁剪梯度：
环神经网络中较容易出现梯度衰减或梯度爆炸，这会导致网络几乎无法训练。裁剪梯度（clip gradient）是一种应对梯度爆炸的方法。假设我们把所有模型参数的梯度拼接成一个向量g ，并设裁剪的阈值是θ。裁剪后的梯度
的L2的范数不超过θ 在这里插入图片描述

困惑度:
我们通常使用困惑度（perplexity）来评价语言模型的好坏。回忆一下“softmax回归”一节中交叉熵损失函数的定义。困惑度是对交叉熵损失函数做指数运算后得到的值。特别地，

最佳情况下，模型总是把标签类别的概率预测为1，此时困惑度为1；
最坏情况下，模型总是把标签类别的概率预测为0，此时困惑度为正无穷；
基线情况下，模型总是预测所有类别的概率都相同，此时困惑度为类别个数。
显然，任何一个有效模型的困惑度必须小于类别个数。

以上内容来自书籍《动手学深度学习》和公益课程《动手学》。

qq_41768189

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
第一次打卡

线性回归线性回归假设输出与各个输⼊之间是线性关系，模型为：y^=x*w+b。其中y^=[y1,y2...yn].T是标签，w=[w1,w2...wn]是权重，x=[x1,x2...xn].T是特征，b是偏差。平均损失函数L(w,b)定义为：y为预测值,y^为真实值。优化函数 - 随机梯度下降：先选取一组模型参数的初始值，如随机选取；接下来对参数进行多次迭代，使每次迭代都可能降低损失函数的...
复制链接

扫一扫

专栏目录