lkdy111-CSDN博客

转载过拟合欠拟合及其解决方案

过拟合、欠拟合及其解决方案过拟合、欠拟合的概念权重衰减丢弃法模型选择、过拟合和欠拟合训练误差和泛化误差在解释上述现象之前，我们需要区分训练误差（training error）和泛化误差（generalization error）。通俗来讲，前者指模型在训练数据集上表现出的误差，后者指模型在任意一个测试数据样本上表现出的误差的期望，并常常通过测试数据集上的误差来近似。计算训练误差和泛...

2020-02-19 15:56:06 303

转载梯度消失、梯度爆炸

梯度消失、梯度爆炸以及Kaggle房价预测梯度消失和梯度爆炸考虑到环境因素的其他问题 Kaggle房价预测梯度消失和梯度爆炸深度模型有关数值稳定性的典型问题是消失（vanishing）和爆炸（explosion）。当神经网络的层数较多时，模型的数值稳定性容易变差。假设一个层数为LLL的多层感知机的第lll层H(l)\boldsymbol{H}^{(l)}H(l)的权重参数为W(l)...

2020-02-19 15:55:34 234 3

转载 ModernRNN

GRU RNN存在的问题：梯度较容易出现衰减或爆炸（BPTT）⻔控循环神经⽹络：捕捉时间序列中时间步距离较⼤的依赖关系 RNN: Ht=ϕ(XtWxh+Ht−1Whh+bh) H_{t} = ϕ(X_{t}W_{xh} + H_{t-1}W_{hh} + b_{h}) Ht=ϕ(XtWxh+Ht−1Whh+bh) GRU: Rt=σ(XtWxr+Ht−1Whr+br)Zt=σ(X...

2020-02-19 15:54:48 173

Transformer 在之前的章节中，我们已经介绍了主流的神经网络架构如卷积神经网络（CNNs）和循环神经网络（RNNs）。让我们进行一些回顾： CNNs 易于并行化，却不适合捕捉变长序列内的依赖关系。 RNNs 适合捕捉长距离变长序列的依赖，但是却难以实现并行化处理序列。为了整合CNN和RNN的优势，[Vaswani et al., 2017] 创新性地使用注意力机制设计了Transfo...

2020-02-19 15:51:47 212

转载机器翻译

机器翻译和数据集机器翻译（MT）：将一段文本从一种语言自动翻译为另一种语言，用神经网络解决这个问题通常称为神经机器翻译（NMT）。主要特征：输出是单词序列而不是单个单词。输出序列的长度可能与源序列的长度不同。 import os os.listdir('/home/kesci/input/') ['fraeng6506', 'd2l9528', 'd2l6239'] import sys...

2020-02-19 15:51:04 495

转载注意力机制和Seq2seq模型

注意力机制在“编码器—解码器（seq2seq）”⼀节⾥，解码器在各个时间步依赖相同的背景变量（context vector）来获取输⼊序列信息。当编码器为循环神经⽹络时，背景变量来⾃它最终时间步的隐藏状态。将源序列输入信息以循环单位状态编码，然后将其传递给解码器以生成目标序列。然而这种结构存在着问题，尤其是RNN机制实际中存在长程梯度消失的问题，对于较长的句子，我们很难寄希望于将输入的序列转化为...

2020-02-19 15:50:12 614

转载 LeNet

course content lenet 模型介绍 lenet 网络搭建运用lenet进行图像识别-fashion-mnist数据集 Convolutional Neural Networks 使用全连接层的局限性：图像在同一列邻近的像素在这个向量中可能相距较远。它们构成的模式可能难以被模型识别。对于大尺寸的输入图像，使用全连接层容易导致模型过大。使用卷积层的优势：卷积层保留输...

2020-02-19 15:46:00 80

转载 ModernCNN

深度卷积神经网络（AlexNet） LeNet: 在大的真实数据集上的表现并不尽如⼈意。 1.神经网络计算复杂。 2.还没有⼤量深⼊研究参数初始化和⾮凸优化算法等诸多领域。机器学习的特征提取:手工定义的特征提取函数神经网络的特征提取：通过学习得到数据的多级表征，并逐级表⽰越来越抽象的概念或模式。神经网络发展的限制:数据、硬件 AlexNet 首次证明了学习到的特征可以超越⼿⼯设计的特征，从...

2020-02-19 15:45:25 94

转载卷积神经网络基础

卷积神经网络基础本节我们介绍卷积神经网络的基础概念，主要是卷积层和池化层，并解释填充、步幅、输入通道和输出通道的含义。二维卷积层本节介绍的是最常见的二维卷积层，常用于处理图像数据。二维互相关运算二维互相关（cross-correlation）运算的输入是一个二维输入数组和一个二维核（kernel）数组，输出也是一个二维数组，其中核数组通常称为卷积核或过滤器（filter）。卷积核的尺寸通...

2020-02-19 15:44:19 182

转载 Softmax与分类模型

softmax和分类模型内容包含： softmax回归的基本概念如何获取Fashion-MNIST数据集和读取数据 softmax回归模型的从零开始实现，实现一个对Fashion-MNIST训练集中的图像数据进行分类的模型使用pytorch重新实现softmax回归模型 softmax的基本概念分类问题一个简单的图像分类问题，输入图像的高和宽均为2像素，色彩为灰度。图像中的4像...

2020-02-14 16:21:45 103

转载循环神经网络

循环神经网络本节介绍循环神经网络，下图展示了如何基于循环神经网络实现语言模型。我们的目的是基于当前的输入与过去的输入序列，预测序列的下一个字符。循环神经网络引入一个隐藏变量HHH，用HtH_{t}Ht表示HHH在时间步ttt的值。HtH_{t}Ht的计算基于XtX_{t}Xt和Ht−1H_{t-1}Ht−1，可以认为HtH_{t}Ht记录了到当前字符为止的序列信息，利用HtH_{t}H...

2020-02-14 16:21:01 167

转载多层感知机

多层感知机多层感知机的基本知识使用多层感知机图像分类的从零开始的实现使用pytorch的简洁实现多层感知机的基本知识深度学习主要关注多层模型。在这里，我们将以多层感知机（multilayer perceptron，MLP）为例，介绍多层神经网络的概念。隐藏层下图展示了一个多层感知机的神经网络图，它含有一个隐藏层，该层中有5个隐藏单元。表达公式具体来说，给定一个小批量样本X∈...

2020-02-14 16:20:17 90

转载 pytorch_文本预处理

文本预处理文本是一类序列数据，一篇文章可以看作是字符或单词的序列，本节将介绍文本数据的常见预处理步骤，预处理通常包括四个步骤：读入文本分词建立字典，将每个词映射到一个唯一的索引（index）将文本从词的序列转换为索引的序列，方便输入模型读入文本我们用一部英文小说，即H. G. Well的Time Machine，作为示例，展示文本预处理的具体过程。 import collecti...

2020-02-14 16:19:22 425

转载语言模型与数据集

语言模型一段自然语言文本可以看作是一个离散时间序列，给定一个长度为TTT的词的序列w1,w2,…,wTw_1, w_2, \ldots, w_Tw1,w2,…,wT，语言模型的目标就是评估该序列是否合理，即计算该序列的概率： P(w1,w2,…,wT). P(w_1, w_2, \ldots, w_T). P(w1,w2,…,wT). 本节我们介绍基于统计的语言模型，主要是nnn元语...

2020-02-14 16:18:23 183

转载线性回归

线性回归主要内容包括：线性回归的基本要素线性回归模型从零开始的实现线性回归模型使用pytorch的简洁实现线性回归的基本要素模型为了简单起见，这里我们假设价格只取决于房屋状况的两个因素，即面积（平方米）和房龄（年）。接下来我们希望探索价格与这两个因素的具体关系。线性回归假设输出与各个输入之间是线性关系: price=warea⋅area+wage⋅age+b \mathrm{pr...

2020-02-14 16:17:11 98

原创 c语言动态数组

总是在c语言程序中遇到数组动态分配的问题难点在于c语言并不支持动态数组的分配所有的变量赋值都必须在程序编译阶段完成而有时程序的数组长度并不知道所以这时就要用指针动态分配内存来解决这个问题下面是一个动态分配一维数组的程序： #include

2015-05-31 13:36:25 491

转载 sizeof和strlen的区别

Sizeof与Strlen的区别与联系一、sizeof sizeof(…)是运算符，在头文件中typedef为unsigned int，其值在编译时即计算好了，参数可以是数组、指针、类型、对象、函数等。它的功能是：获得保证能容纳实现所建立的最大对象的字节大小。由于在编译时计算，因此sizeof不能用来返回动态分配的内存空间的大小。实际上，用sizeof来返回类型以及

2015-05-06 22:52:04 286

原创参加葡萄城程序竞赛失利的反思

天灰朦朦的我感觉也很不好因为竞赛失败了对于这次失败我觉得有如下原因可以供以后参考： 1. 对于题目的理解不够深入，别人在这个过程中对自己的思想影响很大没有自己完整的解题思路 2. 思考的过程在前半段还可以但是后半段整合思路失败导致程序的结构混乱总结时没办法写没有体系结构缺乏规范性 3. 思路放在了点上没法连接起来 4. 缺乏耐心 5. 语言选择错

2015-04-19 15:59:47 410

原创贪心算法

嗯….第一次学习贪心算法：贪心算法通过做一系列的选择来给出某一问题的最优解，更一般的，可以根据如下的步骤来设计贪心算法：（1）将优化问题转化成这样一个问题，即先做出选择，再解决剩下的一个子问题。（2）证明原问题总是有一个最优解是做贪心选择得到的，从而说明贪心选择的安全。（3）说明在做贪心选择后，剩余的子问题具有这样的一个性质。即如果将子问题的最优解和所做的贪心选择联合起来，可以得出原

2015-04-05 14:30:58 272

lkdy111的专栏