第一次打卡

线性回归

线性回归假设输出与各个输⼊之间是线性关系,模型为:y^=x*w+b。其中y^=[y1,y2...yn].T是标签,w=[w1,w2...wn]是权重,x=[x1,x2...xn].T是特征,b是偏差。平均损失函数L(w,b)定义为:

在这里插入图片描述
y为预测值,y^为真实值。
优化函数 - 随机梯度下降:先选取一组模型参数的初始值,如随机选取;接下来对参数进行多次迭代,使每次迭代都可能降低损失函数的值。在每次迭代中,先随机均匀采样一个由固定数目训练数据样本所组成的小批量(mini-batch)β,然后求小批量中数据样本的平均损失有关模型参数的导数(梯度),最后用此结果与预先设定的一个正数的乘积作为模型参数在本次迭代的减小量。
在这里插入图片描述
学习率: 𝜂 代表在每次优化中,能够学习的步长的大小
批量大小: β 是小批量计算中的批量大小batch size
在模型训练中,我们希望找出⼀组模型参数,记为w∗, b∗,来使训练样本平均损失最小:
在这里插入图片描述

Softmax与分类模型

Softmax函数,或称归一化指数函数,它能将一个含任意实数的K维向量 y “压缩”到另一个K维实向量 y'中,使得每一个元素的范围都在0-1之间,即0≤y'(j)≤1,并且所有元素的和为1。该函数的形式通常按下面的式子给出:

在这里插入图片描述
若y为置信度输出,则softmax运算不改变预测类别输出。
softmax回归模型:
在这里插入图片描述

交叉熵损失函数l(Θ):
在这里插入图片描述
即最小化交叉熵损失函数等价于最大化训练数据集所有标签类别的联合预测概率。

多层感知机

多层感知机就是含有至少一个隐藏层的由全连接层组成的神经网络,且每个隐藏层的输出通过激活函数进行变换。多层感知机的层数和各隐藏层中隐藏单元个数都是超参数。以单隐藏层为例并沿用本节之前定义的符号,多层感知机按以下方式计算输出:

在这里插入图片描述
其中Φ表示激活函数。在分类问题中,我们可以对输出O做sofmax运算,并使⽤sofmax回归中的交叉熵损失函数。在回归问题中,我们将输出层的输出个数设为1,并将输出O直接提供给线性回归中使⽤的平⽅损失函数。
激活函数-ReLU函数:该函数定义为ReLU(x)=max(x,0).可以看出,ReLU函数只保留正数元素,并将负数元素清零。ReLu函数是一个通用的激活函数,目前在大多数情况下使用。但是,ReLU函数只能在隐藏层中使用。在选择激活函数的时候可以先选用ReLu函数如果效果不理想可以尝试其他激活函数。
在这里插入图片描述
激活函数-Sigmoid函数函数:该函数定义为sigmoid(x)=1/(1+exp(-x)).sigmoid函数可以将元素的值变换到0和1之间。
在这里插入图片描述
激活函数-tanh函数函数:该函数定义为tanh(x)=(1-exp(-2x))/(1+exp(-2x)).tanh(双曲正切)函数可以将元素的值变换到-1和1之间,当输入接近0时,tanh函数接近线性变换。虽然该函数的形状和sigmoid函数的形状很像,但tanh函数在坐标系的原点上对称。
在这里插入图片描述

文本预处理

文本是一类序列数据,一篇文章可以看作是字符或单词的序列,本数据的常见预处理步骤通常包括四个步骤:

1.读入文本
with open(‘路径.txt’, ‘r’) as f:
2.分词(利用工具包spacy,nltk)
import spacy
nlp = spacy.load(‘en_core_web_sm’)
doc = nlp(text)

from nltk.tokenize import word_tokenize
from nltk import data
data.path.append(‘路径’)
print(word_tokenize(text))
3.建立字典,将每个词映射到一个唯一的索引(index)
为了方便模型处理,我们需要将字符串转换为数字。因此我们需要先构建 一个字典(vocabulary),将每个词映射到一个唯一的索引编号。
4.将文本从词的序列转换为索引的序列,方便输入模型
使用字典,我们可以将原文本中的句子从单词序列转换为索引序列。

语言模型

在这里插入图片描述
通过马尔可夫假设简化模型,马尔科夫假设是指一个词的出现只与前面n个词相关,即n阶马尔可夫链。基于n-1阶马尔可夫链,我们可以将语言模型改写为:
在这里插入图片描述
例如,当n=2时,含有4个词的文本序列的概率就可以改写为:
在这里插入图片描述
如果序列的长度为T,时间步数为n,那么一共有T-n个合法的样本,但是这些样本有大量的重合,我们通常采用更加高效的采样方式。
随机采样:在随机采样中,每个样本是原始序列上任意截取的一段序列,相邻的两个随机小批量在原始序列上的位置不一定相毗邻。
相邻采样:在相邻采样中,相邻的两个随机小批量在原始序列上的位置相毗邻。

循环神经网络基础

在这里插入图片描述
“小罗同学”的理解:
W_xh: 状态-输入权重
W_hh: 状态-状态权重
W_hq: 状态-输出权重
b_h: 隐藏层的偏置
b_q: 输出层的偏置
循环神经网络的参数就是上述的三个权重和两个偏置,并且在沿着时间训练(参数的更新),参数的数量没有发生变化,仅仅是上述的参数的值在更新。循环神经网络可以看作是沿着时间维度上的权值共享。

裁剪梯度:
环神经网络中较容易出现梯度衰减或梯度爆炸,这会导致网络几乎无法训练。裁剪梯度(clip gradient)是一种应对梯度爆炸的方法。假设我们把所有模型参数的梯度拼接成一个向量g ,并设裁剪的阈值是θ。裁剪后的梯度
的L2的范数不超过θ在这里插入图片描述
在这里插入图片描述

困惑度:
我们通常使用困惑度(perplexity)来评价语言模型的好坏。回忆一下“softmax回归”一节中交叉熵损失函数的定义。困惑度是对交叉熵损失函数做指数运算后得到的值。特别地,

最佳情况下,模型总是把标签类别的概率预测为1,此时困惑度为1;
最坏情况下,模型总是把标签类别的概率预测为0,此时困惑度为正无穷;
基线情况下,模型总是预测所有类别的概率都相同,此时困惑度为类别个数。
显然,任何一个有效模型的困惑度必须小于类别个数。

以上内容来自书籍《动手学深度学习》和公益课程《动手学》。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值