动手学深度学习--task1

1. softmax的基本概念

  1. 直接使用输出层的两个问题:
    a. 一方面,由于输出层的输出值的范围不确定,我们难以直观上判断这些值的意义。例如,刚才举的例子中的输出值10表示“很置信”图像类别为猫,因为该输出值是其他两类的输出值的100倍。但如果o1=o3=103,那么输出值10却又表示图像类别为猫的概率很低。
    b. 由于真实标签是离散值,这些离散值与不确定范围的输出值之间的误差难以衡量。
    softmax运算符(softmax operator)解决了以上两个问题。它通过下式将输出值变换成值为正且和为1的概率分布:
    y1,y2,y^3=softmax(o1,o2,o3)

其中

在这里插入图片描述
容易看出y1+y2+y^3=1
且0≤y1,y2,y3≤1,因此y1,y2,y3是一个合法的概率分布。这时候,如果y2=0.8,不管y1和y^3

的值是多少,我们都知道图像类别为猫的概率是80%。此外,我们注意到
argmaxioi=argmaxiy^i

因此softmax运算不改变预测类别输出。

2. 交叉熵损失函数

在这里插入图片描述![在这里插入图片描述](https://img-blog.csdnimg.cn/20200214143850752.png

3. 多层感知机

  1. ReLU函数: ReLU(x) = max(x, 0)
  2. Sigmoid函数: sigmoid(x) = 1/(exp(-x)+1)
  3. tanh函数: tanh(x) = 1-exp(-2x) / 1+exp(-2x)

4.激活函数的选择:
a. ReLU函数是一个通用的激活函数,目前在大多数情况下使用。但是,ReLU函数只能在隐藏层中使用
b. 用于分类器时,sigmoid函数及其组合通常效果更好。由于梯度消失问题,有时避免使用sigmoid和tanh函数
c. 在神经网络层数较多时,最好使用ReLU函数,该函数比较简单计算量少,sigmoid和tanh函数计算量大很多
d. 在选择激活函数时可以先选择ReLU函数,如果效果不好可以尝试其他激活函数
4. 多层感知机就是含有至少一个隐藏层由全连接组成的神经网络,且每个隐藏层的输出通过激活函数今昔你个变换。多层感知机的层数和各隐藏层中隐藏单元个数都是超参数

4. 文本预处理

文本是一类序列数据,一篇文章可以看作是字符或单词的序列。常见预处理通常包括:

  1. 读入文本
  2. 分词:队每个句子及逆行分词,也就是将一个句子划分成若干个词(token),转化为一个词的序列。
  3. 建立字典,将每个词映射到一个唯一的索引。为了方便模型处理,需要将字符串转化为数字。因此需要先构建一个字典,将每个词银蛇到一个唯一的索引编号。
  4. 将文本从词的序列转化为索引的序列,方便输入模型。使用字典,我们可以将原文中的句子从单词序列转化为索引序列。

1 现有工具进行分词的缺点:
a. 标点符号通常可以提供语义信息,但我们的方法直接将其丢弃了
b. 类似“should’n’t”,"doesn’t"这样的词会被错误的处理
c. 类似“Mr.”,"Dr."这样的词会被错误的处理
2. 建议使用spaCy和NLTK进行分词

5. 语言模型

  1. n元语法:序列长度增加,计算和存储多个词出现的概率的复杂度会呈指数级增加。n元语法通过马尔可夫假设简化模型
  2. 时序数据的采样:在训练中我们需要每次随机读取小批量样本和标签。时序数据的一个样本通常包含连续的字符
  3. 随机采样:每个样本是原始序列上任意截取的一段序列,相邻的两个随机小批量在原始序列上的位置不一定相毗邻
  4. 相邻采样:相邻的两个随机小批量在原始序列上的位置相毗邻

6. 循环神经网络

  1. 裁剪梯度:循环神经网络中容易出现梯度衰减或梯度爆炸,这回导致网络几乎无法训练。梯度裁剪是一种硬度梯度爆炸的方法。假设我们把所有模型参数的梯度拼成一个向量g,并设裁剪的阈值是θ。裁剪后的梯度是 min(θ/||g||, 1)g的L2范数不超过θ。
  2. 困惑度:通常使用困惑都来评价语言模型的好坏。困惑都是对交叉熵损失函数做指数运算后的得到的值
    • 最佳情况下,模型总是吧标签类别的概率预测为1.此时困惑都为1
    • 最坏情况下,模型总是把标签类别的概率月初为0,此时困惑都为正无穷
    • 基线情况下,模型总是预测所有类别的概率预测都相同,此时困惑都为类别个数。

7. 循环神经网络进阶

  1. GRU:RNN存在的问题:梯度容易出现衰减或爆炸;门控循环神经网络:捕捉时间序列中时间步距离较大的依赖关系
    a. 重置门:有助于捕捉时间序列里短期的依赖关系;
    b. 更新门:有助于捕捉时间序列里长期的依赖关系
  2. LSTM(长短期记忆)
    a. 遗忘门:控制上一时间步的记忆细胞输入门:控制当前时间步的输入
    b. 输出门:控制记忆细胞到隐藏状态
    c. 记忆细胞:一种特殊的隐藏状态的信息的流动
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值