街角叼支烟-CSDN博客

原创卷积神经网络进阶

深度卷积神经网络（AlexNet）LeNet: 在大的真实数据集上的表现并不尽如⼈意。神经网络计算复杂。还没有⼤量深⼊研究参数初始化和⾮凸优化算法等诸多领域。机器学习的特征提取:手工定义的特征提取函数神经网络的特征提取:通过学习得到数据的多级表征，并逐级表⽰越来越抽象的概念或模式。神经网络发展的限制:数据、硬件AlexNet首次证明了学习到的特征可以超越⼿⼯设计的特征，从而⼀举...

2020-02-19 17:36:39 169

原创 LeNet

Convolutional Neural Networks使用全连接层的局限性：图像在同一列邻近的像素在这个向量中可能相距较远。它们构成的模式可能难以被模型识别。对于大尺寸的输入图像，使用全连接层容易导致模型过大。使用卷积层的优势：卷积层保留输入形状。卷积层通过滑动窗口将同一卷积核与不同位置的输入重复计算，从而避免参数尺寸过大。LeNet 模型LeNet分为卷积层块和全连接...

2020-02-19 17:33:34 133

原创卷积神经网络基础

卷积神经网络基础本节我们介绍卷积神经网络的基础概念，主要是卷积层和池化层，并解释填充、步幅、输入通道和输出通道的含义。互相关运算与卷积运算卷积层得名于卷积运算，但卷积层中用到的并非卷积运算而是互相关运算。我们将核数组上下翻转、左右翻转，再与输入数组做互相关运算，这一过程就是卷积运算。由于卷积层的核数组是可学习的，所以使用互相关运算与使用卷积运算并无本质区别。特征图与感受野二维卷积层输出的...

2020-02-19 17:30:03 119

原创 Transformer

Transformer在之前的章节中，我们已经介绍了主流的神经网络架构如卷积神经网络（CNNs）和循环神经网络（RNNs）。让我们进行一些回顾：CNNs 易于并行化，却不适合捕捉变长序列内的依赖关系。RNNs 适合捕捉长距离变长序列的依赖，但是却难以实现并行化处理序列。为了整合CNN和RNN的优势，[Vaswani et al., 2017] 创新性地使用注意力机制设计了Transfo...

2020-02-19 17:25:34 205

注意力机制在“编码器—解码器（seq2seq）”⼀节⾥，解码器在各个时间步依赖相同的背景变量（context vector）来获取输⼊序列信息。当编码器为循环神经⽹络时，背景变量来⾃它最终时间步的隐藏状态。将源序列输入信息以循环单位状态编码，然后将其传递给解码器以生成目标序列。然而这种结构存在着问题，尤其是RNN机制实际中存在长程梯度消失的问题，对于较长的句子，我们很难寄希望于将输入的序列转化为...

2020-02-19 17:22:20 316

原创机器翻译和数据集

机器翻译和数据集机器翻译（MT）：将一段文本从一种语言自动翻译为另一种语言，用神经网络解决这个问题通常称为神经机器翻译（NMT）。主要特征：输出是单词序列而不是单个单词。输出序列的长度可能与源序列的长度不同。import osos.listdir('/home/kesci/input/')['fraeng6506', 'd2l9528', 'd2l6239']import syss...

2020-02-19 17:15:58 931

原创循环神经网络进阶

GRURNN存在的问题：梯度较容易出现衰减或爆炸（BPTT）⻔控循环神经⽹络：捕捉时间序列中时间步距离较⼤的依赖关系• 重置⻔有助于捕捉时间序列⾥短期的依赖关系；• 更新⻔有助于捕捉时间序列⾥⻓期的依赖关系。载入数据集import osos.listdir('/home/kesci/input')['d2lzh1981', 'houseprices2807', 'jaychou_l...

2020-02-19 17:08:36 388

原创梯度消失、梯度爆炸

梯度消失、梯度爆炸深度模型有关数值稳定性的典型问题是消失（vanishing）和爆炸（explosion）。当神经网络的层数较多时，模型的数值稳定性容易变差。假设一个层数为的多层感知机的第层的权重参数为，输出层的权重参数为。为了便于讨论，不考虑偏差参数，且设所有隐藏层的激活函数为恒等映射（identity mapping）。给定输入，多层感知机的第层的输出。此时，如果层数较大，的计算可能会出...

2020-02-19 17:01:24 67

原创过拟合、欠拟合及其解决方案

过拟合、欠拟合及其解决方案过拟合、欠拟合的概念权重衰减丢弃法模型选择、过拟合和欠拟合训练误差和泛化误差在解释上述现象之前，我们需要区分训练误差（training error）和泛化误差（generalization error）。通俗来讲，前者指模型在训练数据集上表现出的误差，后者指模型在任意一个测试数据样本上表现出的误差的期望，并常常通过测试数据集上的误差来近似。计算训练误差和泛...

2020-02-19 16:58:07 216

原创语言模型

语言模型读取数据集In [1]:with open('/home/kesci/input/jaychou_lyrics4703/jaychou_lyrics.txt') as f: corpus_chars = f.read()print(len(corpus_chars))print(corpus_chars[: 40])corpus_chars = corpus_chars...

2020-02-14 19:41:52 58

原创循环神经网络

循环神经网络循环神经网络的简介实现定义模型我们使用Pytorch中的nn.RNN来构造循环神经网络。在本节中，我们主要关注nn.RNN的以下几个构造函数参数：input_size - The number of expected features in the input xhidden_size – The number of features in the hidden sta...

2020-02-14 19:36:48 190

原创语言模型

语言模型In [1]:with open('/home/kesci/input/jaychou_lyrics4703/jaychou_lyrics.txt') as f: corpus_chars = f.read()print(len(corpus_chars))print(corpus_chars[: 40])corpus_chars = corpus_chars.repla...

2020-02-14 19:31:28 65

原创文本预处理

文本预处理文本是一类序列数据，一篇文章可以看作是字符或单词的序列，本节将介绍文本数据的常见预处理步骤，预处理通常包括四个步骤：读入文本分词建立字典，将每个词映射到一个唯一的索引（index）将文本从词的序列转换为索引的序列，方便输入模型读入文本我们用一部英文小说，即H. G. Well的Time Machine，作为示例，展示文本预处理的具体过程。In [1]:import ...

2020-02-14 19:27:00 320

原创多层感知机

多层感知机使用pytorch的简洁实现多层感知机pytorch实现In [21]:import torchfrom torch import nnfrom torch.nn import initimport numpy as npimport syssys.path.append("/home/kesci/input")import d2lzh1981 as d2l初...

2020-02-14 19:21:26 88

原创 softmax和分类模型

softmax和分类模型内容包含：如何获取Fashion-MNIST数据集和读取数据softmax回归模型的从零开始实现，实现一个对Fashion-MNIST训练集中的图像数据进行分类的模型使用pytorch重新实现softmax回归模型softmax的简洁实现In [63]:# 加载各种包或者模块import torchfrom torch import nnfrom t...

2020-02-14 19:15:46 125

原创线性回归

线性回归主要内容包括：线性回归的基本要素线性回归模型从零开始的实现线性回归模型使用pytorch的简洁实现线性回归的基本要素In [1]:import torchimport time# init variable a, b as 1000 dimension vectorn = 1000a = torch.ones(n)b = torch.ones(n)In [...

2020-02-14 19:02:54 130

weixin_42620919的博客

原创卷积神经网络进阶

原创 LeNet

原创卷积神经网络基础

原创 Transformer

原创注意力机制

原创机器翻译和数据集

原创循环神经网络进阶

原创梯度消失、梯度爆炸

原创过拟合、欠拟合及其解决方案

原创语言模型

原创循环神经网络

原创语言模型

原创文本预处理

原创多层感知机

原创 softmax和分类模型

原创线性回归

空空如也

空空如也