自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(19)
  • 收藏
  • 关注

转载 过拟合欠拟合及其解决方案

过拟合、欠拟合及其解决方案 过拟合、欠拟合的概念 权重衰减 丢弃法 模型选择、过拟合和欠拟合 训练误差和泛化误差 在解释上述现象之前,我们需要区分训练误差(training error)和泛化误差(generalization error)。通俗来讲,前者指模型在训练数据集上表现出的误差,后者指模型在任意一个测试数据样本上表现出的误差的期望,并常常通过测试数据集上的误差来近似。计算训练误差和泛...

2020-02-19 15:56:06 303

转载 梯度消失、梯度爆炸

梯度消失、梯度爆炸以及Kaggle房价预测 梯度消失和梯度爆炸 考虑到环境因素的其他问题 Kaggle房价预测 梯度消失和梯度爆炸 深度模型有关数值稳定性的典型问题是消失(vanishing)和爆炸(explosion)。 当神经网络的层数较多时,模型的数值稳定性容易变差。 假设一个层数为LLL的多层感知机的第lll层H(l)\boldsymbol{H}^{(l)}H(l)的权重参数为W(l)...

2020-02-19 15:55:34 234 3

转载 ModernRNN

GRU RNN存在的问题:梯度较容易出现衰减或爆炸(BPTT) ⻔控循环神经⽹络:捕捉时间序列中时间步距离较⼤的依赖关系 RNN: Ht=ϕ(XtWxh+Ht−1Whh+bh) H_{t} = ϕ(X_{t}W_{xh} + H_{t-1}W_{hh} + b_{h}) Ht​=ϕ(Xt​Wxh​+Ht−1​Whh​+bh​) GRU: Rt=σ(XtWxr+Ht−1Whr+br)Zt=σ(X...

2020-02-19 15:54:48 173

转载 Transformer

Transformer 在之前的章节中,我们已经介绍了主流的神经网络架构如卷积神经网络(CNNs)和循环神经网络(RNNs)。让我们进行一些回顾: CNNs 易于并行化,却不适合捕捉变长序列内的依赖关系。 RNNs 适合捕捉长距离变长序列的依赖,但是却难以实现并行化处理序列。 为了整合CNN和RNN的优势,[Vaswani et al., 2017] 创新性地使用注意力机制设计了Transfo...

2020-02-19 15:51:47 212

转载 机器翻译

机器翻译和数据集 机器翻译(MT):将一段文本从一种语言自动翻译为另一种语言,用神经网络解决这个问题通常称为神经机器翻译(NMT)。 主要特征:输出是单词序列而不是单个单词。 输出序列的长度可能与源序列的长度不同。 import os os.listdir('/home/kesci/input/') ['fraeng6506', 'd2l9528', 'd2l6239'] import sys...

2020-02-19 15:51:04 495

转载 注意力机制和Seq2seq模型

注意力机制 在“编码器—解码器(seq2seq)”⼀节⾥,解码器在各个时间步依赖相同的背景变量(context vector)来获取输⼊序列信息。当编码器为循环神经⽹络时,背景变量来⾃它最终时间步的隐藏状态。将源序列输入信息以循环单位状态编码,然后将其传递给解码器以生成目标序列。然而这种结构存在着问题,尤其是RNN机制实际中存在长程梯度消失的问题,对于较长的句子,我们很难寄希望于将输入的序列转化为...

2020-02-19 15:50:12 614

转载 LeNet

course content lenet 模型介绍 lenet 网络搭建 运用lenet进行图像识别-fashion-mnist数据集 Convolutional Neural Networks 使用全连接层的局限性: 图像在同一列邻近的像素在这个向量中可能相距较远。它们构成的模式可能难以被模型识别。 对于大尺寸的输入图像,使用全连接层容易导致模型过大。 使用卷积层的优势: 卷积层保留输...

2020-02-19 15:46:00 80

转载 ModernCNN

深度卷积神经网络(AlexNet) LeNet: 在大的真实数据集上的表现并不尽如⼈意。 1.神经网络计算复杂。 2.还没有⼤量深⼊研究参数初始化和⾮凸优化算法等诸多领域。 机器学习的特征提取:手工定义的特征提取函数 神经网络的特征提取:通过学习得到数据的多级表征,并逐级表⽰越来越抽象的概念或模式。 神经网络发展的限制:数据、硬件 AlexNet 首次证明了学习到的特征可以超越⼿⼯设计的特征,从...

2020-02-19 15:45:25 94

转载 卷积神经网络基础

卷积神经网络基础 本节我们介绍卷积神经网络的基础概念,主要是卷积层和池化层,并解释填充、步幅、输入通道和输出通道的含义。 二维卷积层 本节介绍的是最常见的二维卷积层,常用于处理图像数据。 二维互相关运算 二维互相关(cross-correlation)运算的输入是一个二维输入数组和一个二维核(kernel)数组,输出也是一个二维数组,其中核数组通常称为卷积核或过滤器(filter)。卷积核的尺寸通...

2020-02-19 15:44:19 182

转载 Softmax与分类模型

softmax和分类模型 内容包含: softmax回归的基本概念 如何获取Fashion-MNIST数据集和读取数据 softmax回归模型的从零开始实现,实现一个对Fashion-MNIST训练集中的图像数据进行分类的模型 使用pytorch重新实现softmax回归模型 softmax的基本概念 分类问题 一个简单的图像分类问题,输入图像的高和宽均为2像素,色彩为灰度。 图像中的4像...

2020-02-14 16:21:45 103

转载 循环神经网络

循环神经网络 本节介绍循环神经网络,下图展示了如何基于循环神经网络实现语言模型。我们的目的是基于当前的输入与过去的输入序列,预测序列的下一个字符。循环神经网络引入一个隐藏变量HHH,用HtH_{t}Ht​表示HHH在时间步ttt的值。HtH_{t}Ht​的计算基于XtX_{t}Xt​和Ht−1H_{t-1}Ht−1​,可以认为HtH_{t}Ht​记录了到当前字符为止的序列信息,利用HtH_{t}H...

2020-02-14 16:21:01 167

转载 多层感知机

多层感知机 多层感知机的基本知识 使用多层感知机图像分类的从零开始的实现 使用pytorch的简洁实现 多层感知机的基本知识 深度学习主要关注多层模型。在这里,我们将以多层感知机(multilayer perceptron,MLP)为例,介绍多层神经网络的概念。 隐藏层 下图展示了一个多层感知机的神经网络图,它含有一个隐藏层,该层中有5个隐藏单元。 表达公式 具体来说,给定一个小批量样本X∈...

2020-02-14 16:20:17 90

转载 pytorch_文本预处理

文本预处理 文本是一类序列数据,一篇文章可以看作是字符或单词的序列,本节将介绍文本数据的常见预处理步骤,预处理通常包括四个步骤: 读入文本 分词 建立字典,将每个词映射到一个唯一的索引(index) 将文本从词的序列转换为索引的序列,方便输入模型 读入文本 我们用一部英文小说,即H. G. Well的Time Machine,作为示例,展示文本预处理的具体过程。 import collecti...

2020-02-14 16:19:22 425

转载 语言模型与数据集

语言模型 一段自然语言文本可以看作是一个离散时间序列,给定一个长度为TTT的词的序列w1,w2,…,wTw_1, w_2, \ldots, w_Tw1​,w2​,…,wT​,语言模型的目标就是评估该序列是否合理,即计算该序列的概率: P(w1,w2,…,wT). P(w_1, w_2, \ldots, w_T). P(w1​,w2​,…,wT​). 本节我们介绍基于统计的语言模型,主要是nnn元语...

2020-02-14 16:18:23 183

转载 线性回归

线性回归 主要内容包括: 线性回归的基本要素 线性回归模型从零开始的实现 线性回归模型使用pytorch的简洁实现 线性回归的基本要素 模型 为了简单起见,这里我们假设价格只取决于房屋状况的两个因素,即面积(平方米)和房龄(年)。接下来我们希望探索价格与这两个因素的具体关系。线性回归假设输出与各个输入之间是线性关系: price=warea⋅area+wage⋅age+b \mathrm{pr...

2020-02-14 16:17:11 98

原创 c语言动态数组

总是在c语言程序中遇到数组动态分配的问题 难点在于c语言并不支持动态数组的分配 所有的变量赋值都必须在程序编译阶段完成 而有时程序的数组长度并不知道 所以这时就要用指针动态分配内存来解决这个问题 下面是一个动态分配一维数组的程序: #include

2015-05-31 13:36:25 491

转载 sizeof和strlen的区别

Sizeof与Strlen的区别与联系一、sizeof sizeof(…)是运算符,在头文件中typedef为unsigned int,其值在编译时即计算好了,参数可以是数组、指针、类型、对象、函数等。 它的功能是:获得保证能容纳实现所建立的最大对象的字节大小。 由于在编译时计算,因此sizeof不能用来返回动态分配的内存空间的大小。实际上,用sizeof来返回类型以及

2015-05-06 22:52:04 286

原创 参加葡萄城程序竞赛失利的反思

天灰朦朦的 我感觉也很不好 因为竞赛失败了 对于这次失败 我觉得有如下原因可以供以后参考: 1. 对于题目的理解不够深入,别人在这个过程中对自己的思想影响很大 没有自己完整的解题思路 2. 思考的过程在前半段还可以 但是后半段整合思路失败 导致程序的结构混乱 总结时没办法写 没有体系结构 缺乏规范性 3. 思路放在了点上 没法连接起来 4. 缺乏耐心 5. 语言选择错

2015-04-19 15:59:47 410

原创 贪心算法

嗯….第一次学习贪心算法: 贪心算法通过做一系列的选择来给出某一问题的最优解,更一般的,可以根据如下的步骤来设计贪心算法: (1)将优化问题转化成这样一个问题,即先做出选择,再解决剩下的一个子问题。 (2)证明原问题总是有一个最优解是做贪心选择得到的,从而说明贪心选择的安全。 (3)说明在做贪心选择后,剩余的子问题具有这样的一个性质。即如果将子问题的最优解和所做的贪心选择联合起来,可以得出原

2015-04-05 14:30:58 272

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除