自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(52)
  • 收藏
  • 关注

原创 1021序列到序列学习

在实现编码器和解码器时,我们可以使⽤多层循环神经⽹络我们可以使⽤遮蔽来过滤不相关的计算,例如在计算损失时在“编码器-解码器”训练中,强制教学⽅法将原始输出序列(⽽⾮预测结果)输⼊解码器

2022-10-21 22:11:33 60

原创 1020编码器和解码器架构

“编码器-解码器”架构可以将长度可变的序列作为输入和输出,因此适用于机器翻译等序列转换问题。编码器将长度可变的序列作为输入,并将其转换为具有固定形状的编码状态,这个状态又被解码器作为其输入的一部分。解码器将具有固定形状的编码状态和根据在前一时间步生成的预测词元或者使用label序列当前时间步的词元,从而使网络生成具有长度可变的序列结果。

2022-10-20 17:40:36 71

原创 1019机器翻译与数据集

机器翻译指的是将文本序列从一种语言自动翻译成另一种语言。使用单词级词元化时的词表大小,将明显大于使用字符级词元化时的词表大小。为了缓解这一问题,我们可以将低频词元视为相同的未知词元。通过截断和填充文本序列,可以保证所有的文本序列都具有相同的长度,以便以小批量的方式加载。

2022-10-19 17:55:54 163

原创 1018双向循环神经网络

在双向循环神经网络中,每个时间步的隐状态由当前时间步的前后数据同时决定。双向循环神经网络与概率图模型中的“前向-后向”算法具有相似性。双向循环神经网络主要用于序列编码和给定双向上下文的观测估计。由于梯度链更长,因此双向循环神经网络的训练代价非常高。

2022-10-18 17:49:03 345

原创 1017深层循环神经网络

在深度循环神经网络中,隐状态的信息被传递到当前层的下一时间步和下一层的当前时间步存在许多不同风格的深度循环神经网络,如长短期记忆网络、门控循环单元或经典循环神经网络深度循环神经网络需要大量的调参(如学习率和修剪)来确保合适的收敛,模型的初始化也需要谨慎

2022-10-17 19:15:00 108

原创 1014长短期记忆网络(LSTM)

长短期记忆网络包含三种类型的门:输入门、遗忘门和输出门长短期记忆网络可以缓解梯度消失和梯度爆炸

2022-10-14 14:20:04 805

原创 1013门控循环单元GRU

重置门有助于捕获序列中的短期依赖关系更新门有助于捕获序列中的长期依赖关系重置门打开时,门控循环单元包含基本循环神经网络更新门打开时,门控循环单元可以跳过子序列

2022-10-13 18:09:03 289

原创 1012循环神经网络 RNN 的实现

时间序列预测问题

2022-10-12 18:59:34 495

原创 1011 循环神经网络 RNN

对隐藏状态使用循环计算的神经网络称为循环神经网络(RNN),循环神经网络的输出取决于当下输入和前一时间的隐变量循环神经网络的隐藏状态可以捕获当前时间步序列的历史信息隐变量是用来存储历史信息和下一个历史信息的转换规则,所以在拿到过去的输入和当前的隐藏状态就能够预测当前的输出Whh 拥有一定的时序预测目的

2022-10-11 18:10:35 1076 3

原创 1010语言模型

1、语言模型是自然语言处理的关键,语言模型其实就是估计文本序列的联合概率,也是 NLP 领域最常见的应用2、使用统计方法时通常采用 n元语法,每次看一个长为 n 的子序列来进行计数,对于给定的长序列拆分成很多个连续的长度为 N 的子序列,就能够计算文本序列的联合概率了。n元语法通过截断相关性,为处理长序列提供了一种实用的模型(长序列的问题在于它们很少出现或者从不出现)

2022-10-10 18:07:23 272

原创 1009文本预处理

解析文本的常见预处理步骤:1.将文本作为字符串加载到内存中2.将字符串拆分为词元(如单词和字符)3.建立一个词表,将拆分的词元映射到数字索引4.将文本转换为数字索引序列,方便模型操作

2022-10-09 17:47:50 109 1

原创 1008序列数据

时序模型中,当前数据跟之前观察到的数据相关自回归模型使用自身过去数据来预测未来马尔科夫模型假设当前只跟当前少数数据相关,每次都使用固定长度的过去信息来预测现在,从而简化模型

2022-10-08 18:04:22 335

原创 0930样式迁移(Style Transfer)

1、样式迁移常用的损失函数由 3 部分组成:内容损失、样式损失和全变分损失2、可以通过预训练好的卷积神经网络来抽取图像的特征,并通过最小化损失函数来不断更新合成图片来作为模型参数3、使用格拉姆矩阵表达样式层输出的样式

2022-09-30 18:00:22 807

原创 0929全连接卷积神经网络(FCN)

1、全卷积网络首先使用卷积神经网络抽取图像特征,然后通过 1*1 卷积层将通道数变换为类别个数,最后通过转置卷积层将特征图的高和宽变换为输入图像的尺寸2、在全卷积网络中,可以将转置卷积层初始化为双线性插值的上采样

2022-09-29 18:26:49 829

原创 0928转置卷积

1、与通过卷积核减少输入元素的常规卷积相反,转置卷积通过卷积核广播输入元素,从而产生形状大于输入的输出2、如果我们将 X 输入卷积层 f 来获得输出 Y = f(X) 并创造一个与 f 有相同的超参数、但输出通道数是 X 中通道数的转置卷积层 g ,那么 g(Y) 的形状将与 X 相同。3、可以使用矩阵乘法来实现卷积。转置卷积层能够交换卷积层的正向传播函数和反向传播函数

2022-09-28 17:58:12 629

原创 0927锚框(Anchor box)

目前主流的目标检测算法都是基于锚框来预测的首先以图像的每个像素为中心生成大量不同形状的锚框(不同的算法生成锚框的方法不同),并对每个锚框赋予标号(对锚框赋予标号的方法也有很多种),这样每个锚框就会有一个类别标号和相对与边缘框的偏移,因此每个锚框可以作为一个样本进行训练交并比用于衡量两个边界框的相似性,它等于两个边界框像素区域的交集与并集之间的比值在训练集中,需要给每个锚框两种类型的标签:1、锚框中目标检测的类别;2、锚框相对于真实边缘框的偏移量在预测的时候会对每个锚框进行预测,会生成大量冗余的预测

2022-09-27 18:16:42 801

原创 0926物体检测和数据集

物体检测不仅能够识别图片所有感兴趣的物体的类别,还能够识别他们的位置,该位置通常由矩形边框表示位置通常用边缘框表示(通常有四个数字)用于目标检测的数据加载与图像分类的数据加载类似,但是,在目标检测中,标签还包含真实边界框的信息,它不出现在图像分类中

2022-09-26 18:20:25 598

原创 9.23 深度学习微调

1、微调通过使用在大数据上得到的预训练好的模型来初始化目标数据集上的模型权重来完成提升精度2、预训练模型质量很重要3、微调通常速度更快,精度更高(可以借助在大数据集上所获得的先验知识)4、建议尽量从微调开始训练,不要直接从目标数据集上从零开始进行训练未来从原始数据集上进行训练的会越来越少,主要是学术界或者大公司在很大的数据集上进行重新训练对于个人或者实际应用来讲,通常是使用微调5、迁移学习将从源数据集中学到的知识“迁移”到目标数据集,微调迁移学习的常见技巧6、除输出层外,目标模型从源

2022-09-23 18:00:14 535

原创 0922数据增广

数据增强通过变形数据来获取多样性从而使得模型泛化性能更好(基于现有的训练数据生成随机图像,以提高模型的泛化能力,本质上是希望通过对原始数据的变化来模拟现场部署或者是测试集中可能出现的情况)常见的图片增强包括翻转、切割、变色为了在预测过程中得到确切的结果,通常会只对训练样本进行图像增广,而在预测过程中不使用带随机操作的图像增广在实践中,通常会组合使用多种图像增广方法

2022-09-22 17:58:36 1021

原创 0921深度学习硬件CPU和GPU

CPU:可以处理通用计算。性能优化考虑数据读写效率和多线程(多核)GPU:使用更多的小核和更好的内存带宽,适合能大规模并行的计算任务设备有运行开销,数据传输时要争取量大次少而不是量少次多在训练过程中数据类型过小可能会导致数值的溢出(在推断过程中影响不大)

2022-09-21 18:33:11 641

原创 9.20残差网络 ResNet

残差网络 ResNet两大特点1 加深模型可以退化为浅层模型2 梯度高速通道

2022-09-20 18:18:23 407

原创 0919批量归一化

① 当每一个层的均值和方差都固定后,学习率太大的话,靠近loss上面的梯度太大,就梯度爆炸了,学习率太小的话,靠近数据的梯度太小了,就算不动(梯度消失)。② 将每一层的输入放在一个差不多的分布里,就当每一个层的均值和方差都固定后,学习率太大的话,靠近loss上面的梯度太大,就梯度爆炸了,学习率太小的话,靠近数据的梯度太小了,就算不动(梯度消失)。② 将每一层的输入放在一个差不多的分布里,就可以用一个比较大的精度了,就可以加速收敛速度。③ 归一化不会影响数据分布,它一点都不会影响精度,变好变坏都不会。

2022-09-19 19:39:15 332

原创 9.19 GoogLeNet

GoogLeNet的问题是特别复杂,通道数的设置没有一定的选择依据,以及内部构造比较奇怪。

2022-09-19 18:10:20 217

原创 0915含并行连结的网络 GoogLeNet / Inception V3

Inception块用4条有不同超参数的卷积层和池化层的路来抽取不同的信息它的一个主要优点是模型参数小, 计算复杂度低GoogLeNet使用9个Inception块, 是第一个达到上百层的网络

2022-09-15 20:10:01 332

原创 0914LeNet/AlexNet/VGG/NiN网络

LeNet:网络结构比较完整,包括卷积层、pooling层、全连接层AlexNet:(1)非线性激活函数:ReLU;(2)防止过拟合的方法:Dropout,Data augmentation。同时,使用多个GPU,LRN归一化层。其主要的优势有:网络扩大(5个卷积层+3个全连接层+1个softmax层);解决过拟合问题(dropout,data augmentation,LRN);多GPU加速计算VGG-Net使用更多的层( 3 x 3)

2022-09-14 19:06:19 509

原创 0913经典卷积神经网络1

LeNet ​ 使用卷积层来学习图片空间信息,然后使用全连接层来转换到类别空间AlexNet 丢弃法、relu、maxpooling、数据增强​VGG 1.带填充以保持分辨率的卷积层 2.非线性激活函数,如relu 3.池化层

2022-09-13 18:22:12 207

原创 0909多个输入和输出通道

输出通道数是卷积层的超参数;每个输入通道有独立的二维卷积核,所有通道结果相加得到一个输出通道结果;每个输出通道有独立的三维卷积核。

2022-09-09 15:35:12 381

原创 0908-2卷积层里的填充和步幅

填充可以增加输出的⾼度和宽度。这常⽤来使输出与输⼊具有相同的⾼和宽步幅可以减小输出的⾼和宽,例如输出的⾼和宽仅为输⼊的⾼和宽的 1/n(n 是⼀个⼤于 1 的整数)填充和步幅可⽤于有效地调整数据的维度

2022-09-08 17:35:07 97

原创 0908-1卷积层

超参数就是卷积核的大小,卷积核的大小控制了局部性,卷积核越大看到的范围越广,卷积核越小看到的范围也就越小卷积层可以看成一个特殊的全连接层卷积解决了权重参数随着输入规模的增大而增大的问题,通过不变性减小了权重参数的数量

2022-09-08 17:25:34 412

原创 0907实战KAGGLE房价预测数据

使用线性回归模型与对数均方误差实现基本预测,并用K折交叉验证进行验证

2022-09-07 18:37:03 816 2

原创 0906Kaggle预测

增加一层隐藏层。隐藏层的激活函数选择 relu,比sigmod性能好

2022-09-06 18:24:40 132

原创 0905PyTorch 神经网络基础

初始化主要是要开始的时候能够训练, 很难对后面精度有影响

2022-09-05 18:06:14 200

原创 0902数值稳定性

为了使训练更加稳定,我们需要使梯度在一个合理的范围内,有很多方法,如:将梯度的连乘形式变成加法(ResNet,LSTM)归一化(梯度归一化,梯度裁剪)选择合适的权重初始和激活函数

2022-09-02 16:42:47 280

原创 0901权重衰退

使⽤权重衰减。可以看出,训练误差虽然有所提⾼,但测试集上的误差有所下降。过拟合现象得到⼀定程度的缓解。另外,权重参数的L2 范数⽐不使⽤权᯿衰减时的更⼩,此时的权重参数更接近0

2022-09-01 18:04:32 258

原创 0901-2丢弃法

在测试模型时,为了得到更加确定性的结果,一般不使用丢弃法。

2022-09-01 18:00:11 62

原创 0831-2 模型选择+过拟合/欠拟合

欠拟合是指模型无法继续减少训练误差。过拟合是指训练误差远小于验证误差。由于不能基于训练误差来估计泛化误差,因此简单地最小化训练误差并不一定意味着泛化误差的减小。机器学习模型需要注意防止过拟合,即防止泛化误差过大。验证集可以用于模型选择,但不能过于随意地使用它。我们应该选择一个复杂度适当的模型,避免使用数量不足的训练样本。...

2022-08-31 17:16:46 262

原创 0831-1多层感知机

多层感知机使用隐藏层和激活函数来得到非线性模型常用激活函数是Sigmoid, Tanh, ReLU使用Softmax来处理多类分类超参数为隐藏层数,和各个隐藏层大小

2022-08-31 16:58:50 252

原创 0830softmax线性回归

将这样的X传入softmax后,得到的矩阵X_prob的每一行代表将一个样本传入softmax得到的各个类别概率,因此,每行的元素相加为1.将这样的X传入softmax后,得到的矩阵X_prob的每一行代表将一个样本传入softmax得到的各个类别概率,因此,每行的元素相加为1.输出有10类,输入的图片尺寸为28*28像素,那么输入特征大小就是28*28,也就是输入样本的矩阵X形状为 (样本数行,特征数列即28*28列)。使用上面的一个epoch的函数来定义完整的训练函数。4.定义softmax函数。...

2022-08-30 17:52:33 274

原创 0826 Pandas与Numpy

基础类库

2022-08-26 16:12:10 43

原创 VM上Ubantu中因GParted小钥匙导致不能扩容

VM上Ubantu中因GParted小钥匙导致不能扩容因为有带小钥匙,所以不可以进行直接拖动内存条。可以开始自由拖拽内存了。

2022-08-26 12:16:38 753

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除