深度学习
文章平均质量分 68
青竹aaa
这个作者很懒,什么都没留下…
展开
-
RuntimeError: one of the variables needed for gradient computation has been modified by an inplace o
问题RuntimeError: one of the variables needed for gradient computation has been modified by an inplace operation: [torch.cuda.FloatTensor [1, 2]], which is output 0 of SoftmaxBackward, is at version 1; expected version 0 instead. Hint: enable anomaly detec原创 2022-05-01 00:00:00 · 664 阅读 · 0 评论 -
Tips: Test Time Augmentation
Test time augmentation数据扩充是模型训练期间通常使用的一种方法,它使用来自训练数据集的样本的修改副本来扩充训练集。数据增强通常使用图像数据执行,其中使用一些执行的图像处理技术(如缩放、翻转、移位等)创建训练数据集中的图像副本。人工扩展的训练数据集可以产生更熟练的模型,因为深度学习模型的性能通常会随着训练数据集的大小而不断扩展。此外,训练数据集中图像的修改或增强版本可以帮助模型以不改变其位置、光线等的方式提取和学习特征。Test time augmentation(简称TTA)原创 2021-10-21 21:48:52 · 477 阅读 · 0 评论 -
Label Smoothing(标签平滑)—— 分类问题中错误标注的一种解决方法
Label Smoothing也称之为标签平滑,其实是一种防止过拟合的正则化方法。传统的分类loss采用softmax loss,先对全连接层的输出计算softmax,视为各类别的置信度概率,再利用交叉熵计算损失。在这个过程中尽可能使得各样本在正确类别上的输出概率为1,这要使得对应的z值为+∞,这拉大了其与其他类别间的距离。现在假设一个多分类任务标签是[1,0,0],如果它本身的label的出现了问题,这对模型的伤害是非常大的,因为在训练的过程中强行学习一个非本类的样本,并且让其概率非常高,这会影响转载 2021-08-14 11:36:44 · 1372 阅读 · 0 评论 -
国内镜像
清华 Anaconda 仓库的镜像,运行以下命令添加 :conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/free/conda config --set show_channel_urls yes清华pip 仓库的镜像,运行以下命令添加【临时】:pip install -i https://pypi.tuna.tsinghua.edu.cn/simple geventAlso [ p转载 2021-03-23 12:01:43 · 106 阅读 · 0 评论 -
CNN各层次的理解
记录一下https://blog.csdn.net/glory_lee/article/details/77899465?utm_medium=distribute.pc_relevant.none-task-blog-searchFromBaidu-3.control&depth_1-utm_source=distribute.pc_relevant.none-task-blog-searchFromBaidu-3.controlhttps://blog.csdn.net/xiewenbo转载 2021-01-18 22:20:29 · 1531 阅读 · 0 评论 -
BatchNorm的理解
0、问题 机器学习领域有个很重要的假设:IID独立同分布假设,就是假设训练数据和测试数据是满足相同分布的,这是通过训练数据获得的模型能够在测试集获得好的效果的一个基本保障。那BatchNorm的作用是什么呢?BatchNorm就是在深度神经网络训练过程中使得每一层神经网络的输入保持相同分布的。 思考一个问题:为什么传统的神经网络在训练开始之前,要对输入的数据做Normalization?原因在于神经网络学习过程本质上是为了学习数据的分布,一旦训练数据与测试数据的分布不同,那么网络的泛化能力也大大转载 2021-01-13 00:23:10 · 6267 阅读 · 1 评论 -
医学图像数据集汇总
一、 胰腺分割数据集数据下载链接:http://academictorrents.com/details/80ecfefcabede760cdbdf63e38986501f7becd49数据介绍:包含82个病例的胰腺数据集。二、MICCAI胰腺分割数据集数据下载链接:http://medicaldecathlon.com/数据介绍:282个训练病例,139个测试病例,同时分割胰腺和肿瘤,测试集label是hidden的。三、The National Library of Medicine原创 2021-01-06 22:06:09 · 9919 阅读 · 0 评论 -
免费数据集下载
目前系统整理了一些网上开放的免费科研数据集,以下是分类列表以及下载地址,供高校和科研机构免费下载和使用。金融美国劳工部统计局官方发布数据 上证A股日线数据,1999.12.09 至 2016.06.08,前复权,1095支股票 深证A股日线数据,1999.12.09 至 2016.06.08,前复权,1766支股票 深证创业板日线数据,1999.12.09 至 2016.06.08,前复权,510支股票 MT4平台外汇交易历史数据 Forex平台外汇交易历史数据 几组外汇交易逐笔(Tic转载 2021-01-06 21:32:01 · 320 阅读 · 0 评论 -
pytorch实现CIFAR10分类,gpu提速
记录本阶段的学习,后期继续学习和改进,代码是完整的,可直接运行import torchimport torchvisionimport torchvision.transforms as transformsimport matplotlib.pyplot as pltimport numpy as npimport torch.nn as nnimport torch.nn.functional as Fimport torch.optim as optim# transforms.原创 2020-11-29 00:04:59 · 565 阅读 · 1 评论 -
分类交叉熵Cross-Entropy
一、简介 在二分类问题中,你可以根据神经网络节点的输出,通过一个激活函数如Sigmoid,将其转换为属于某一类的概率,为了给出具体的分类结果,你可以取0.5作为阈值,凡是大于0.5的样本被认为是正类,小于0.5则认为是负类 然而这样的做法并不容易推广到多分类问题。多分类问题神经网络最常用的方法是根据类别个数n,设置n个输出节点,这样每个样本神经网络都会给出一个n维数组作为输出结果,然后我们运用激活函数如softmax,将输出转换为一种概率分布,其中的每一个概率代表了该样本属于某类的概率。 比如一转载 2020-11-28 22:19:08 · 5067 阅读 · 0 评论 -
训练神经网络中最基本的三个概念:Epoch, Batch, Iteration
记录一下呀https://blog.csdn.net/lhhopencv/article/details/78912256https://blog.csdn.net/sinat_16643223/article/details/86670137原创 2020-11-28 00:16:47 · 186 阅读 · 0 评论 -
图解自注意力机制
BERT 及其多种变体已经在多种语言理解任务上取得了非常出色的表现,这些架构全都基于 Transformer,而 Transformer 又使用了一种名为「自注意力」的方法。本文将通过图示和代码对自注意力机制进行透彻的解读。当然,在阅读本文之前,你可能也想了解什么是注意力机制。没有问题,同一位作者机器学习工程师 Raimi Karim 之前已经通过类似的方式解读过了:《图解神经机器翻译中的注意力机制》。BERT、RoBERTa、ALBERT、SpanBERT、DistilBER...转载 2020-11-25 00:15:53 · 4781 阅读 · 0 评论 -
注意力机制
本文用几张动图形象地解释了注意力机制,还分享了过去 5 年中出现的 4 个 NMT 架构,对文中出现的一些概念也进行了直观解释。几十年来,统计机器翻译在翻译模型中一直占主导地位 [9],直到神经机器翻译(NMT)出现。NMT 是一种新兴的机器翻译方法,它试图构建和训练单个大型神经网络,该网络读取输入文本并输出译文 [1]。NMT 的最初开拓性研究来自 Kalchbrenner 和 Blunsom (2013)、Sutskever 等人 (2014) 和 Cho. 等人...转载 2020-11-25 00:13:30 · 2038 阅读 · 0 评论 -
吴恩达深度学习课程翻译
第一门课 神经网络和深度学习(Neural Networks and Deep Learning)第一周:深度学习引言(Introduction to Deep Learning)1.1 欢迎(Welcome) 11.2 什么是神经网络?(What is a Neural Network)1.3 神经网络的监督学习(Supervised Learning with Neural Networks)1.4 为什么神经网络会流行?(Why is Deep Learning taking of转载 2020-11-24 15:06:49 · 415 阅读 · 0 评论 -
吴恩达深度学习:词嵌入模块
词嵌入的特性(用词嵌入做类比推理)https://blog.csdn.net/weixin_36815313/article/details/106597209?ops_request_misc=%257B%2522request%255Fid%2522%253A%2522160602942619724835861727%2522%252C%2522scm%2522%253A%252220140713.130102334.pc%255Fblog.%2522%257D&request_id=160原创 2020-11-22 20:53:26 · 267 阅读 · 0 评论 -
吴恩达深度学习:使用词嵌入
使用词嵌入 (Using Word Embeddings)上一个视频中,你已经了解不同单词的特征化表示了。这节你会看到我们如何把这种表示方法应用到NLP应用中。我们从一个例子开始,我们继续用命名实体识别的例子,如果你要找出人名,假如有一个句子:“Sally Johnson is an orange farmer.”(Sally Johnson是一个种橙子的农民),你会发现Sally Johnson就是一个人名,所以这里的输出为1。之所以能确定Sally Johnson是一个人名而不是一个公司名,是因转载 2020-11-22 15:16:12 · 444 阅读 · 0 评论 -
吴恩达深度学习:NLP中词如何表示
词汇表征 (Word Representation)上周我们学习了RNN、GRU单元和LSTM单元。本周你会看到我们如何把这些知识用到NLP上,用于自然语言处理,深度学习已经给这一领域带来了革命性的变革。其中一个很关键的概念就是词嵌入(word embeddings),这是语言表示的一种方式,可以让算法自动的理解一些类似的词,比如男人对女人,比如国王对王后,还有其他很多的例子。通过词嵌入的概念你就可以构建NLP应用了,即使你的模型标记的训练集相对较小。这周的最后我们会消除词嵌入的偏差,就是去除不想要的特转载 2020-11-22 14:56:23 · 305 阅读 · 0 评论 -
吴恩达深度学习:RNN模块
前言这些文章是对吴恩达深度学习视频课程的原句字幕翻译序列模型的数学符号表示https://blog.csdn.net/weixin_36815313/article/details/105834158循环神经网络模型 (Recurrent Neural Network Model)https://blog.csdn.net/weixin_36815313/article/details/105834158RNN中的反向传播https://blog.csdn.net/weixin_原创 2020-11-22 13:58:03 · 194 阅读 · 0 评论 -
吴恩达深度学习:1*1卷积
此公众号会发表计算机考研(初复试信息)、夏令营等资料,方便考研人对信息的获取,节约自身查找资料的时间,回复408,可获得数据结构、操作系统、计算机网络、计算机组成原理全科资料目录课程翻译前言1x1卷积核1x1卷积核作用增加非线性1x1卷积应用参考课程翻译在架构内容设计方面,其中一个比较有帮助的想法是使用1×1卷积。也许你会好奇,1×1的卷积能做什么呢?不就是乘以数字么?听上去挺好笑的,结果并非如此,我们来具体看看。过滤器为1×1,这里是数字2,输入一张6...原创 2020-11-17 22:34:47 · 1505 阅读 · 0 评论 -
吴恩达深度学习:残差网络(ResNet)
此公众号会发表计算机考研(初复试信息)、夏令营等资料,方便考研人对信息的获取,节约自身查找资料的时间,回复408,可获得数据结构、操作系统、计算机网络、计算机组成原理全科资料残差网络 (Residual Networks (ResNets))非常非常深的神经网络是很难训练的,因为存在梯度消失和梯度爆炸问题。这节课我们学习跳跃连接(Skip connection),它可以从某一层网络层获取激活,然后迅速反馈给另外一层,甚至是神经网络的更深层。我们可以利用跳跃连接构建能够训练深度网络的ResNets..原创 2020-11-17 16:49:42 · 3352 阅读 · 0 评论 -
吴恩达深度学习:经典网络(LeNet-5、AlexNet和VGGNet)
此公众号会发表计算机考研(初复试信息)、夏令营等资料,方便考研人对信息的获取,节约自身查找资料的时间,回复408,可获得数据结构、操作系统、计算机网络、计算机组成原理全科资料经典网络 (Classic Networks)这节课,我们来学习几个经典的神经网络结构,分别是LeNet-5、AlexNet和VGGNet,开始吧。首先看看LeNet-5的网络结构,假设你有一张32×32×1的图片,LeNet-5可以识别图中的手写数字,比如像这样手写数字7。LeNet-5是针对灰度图片训练的,所以图片的..原创 2020-11-17 16:44:38 · 647 阅读 · 0 评论 -
吴恩达深度学习:为什么使用卷积
此公众号会发表计算机考研(初复试信息)、夏令营等资料,方便考研人对信息的获取,节约自身查找资料的时间,回复408,可获得数据结构、操作系统、计算机网络、计算机组成原理全科资料这是本周最后一节课,我们来分析一下卷积在神经网络中如此受用的原因,然后对如何整合这些卷积,如何通过一个标注过的训练集训练卷积神经网络做个简单概括。和只用全连接层相比,卷积层的两个主要优势在于参数共享和稀疏连接,举例说明一下。假设有一张32×32×3维度的图片,这是上节课的示例,假设用了6个大小为5×5的过滤器,输出维度为2..原创 2020-11-15 22:34:02 · 332 阅读 · 0 评论 -
吴恩达深度学习:池化层卷积神经网络示例
此公众号会发表计算机考研(初复试信息)、夏令营等资料,方便考研人对信息的获取,节约自身查找资料的时间,回复408,可获得数据结构、操作系统、计算机网络、计算机组成原理全科资料构建全卷积神经网络的构造模块我们已经掌握得差不多了,下面来看个例子。假设,有一张大小为32×32×3的输入图片,这是一张RGB模式的图片,你想做手写体数字识别。32×32×3的RGB图片中含有某个数字,比如7,你想识别它是从0-9这10个数字中的哪一个,我们构建一个神经网络来实现这个功能。我用的这个网络模型和经典网络L..原创 2020-11-15 22:32:58 · 379 阅读 · 0 评论 -
吴恩达深度学习:池化层
此公众号会发表计算机考研(初复试信息)、夏令营等资料,方便考研人对信息的获取,节约自身查找资料的时间,回复408,可获得数据结构、操作系统、计算机网络、计算机组成原理全科资料池化层 (Pooling Layers)除了卷积层,卷积网络也经常使用池化层来缩减模型的大小,提高计算速度,同时提高所提取特征的鲁棒性,我们来看一下。先举一个池化层的例子,然后我们再讨论池化层的必要性。假如输入是一个4×4矩阵,用到的池化类型是最大池化(max pooling)。执行最大池化的树池是一个2×2矩阵。执行..原创 2020-11-15 22:00:28 · 536 阅读 · 0 评论 -
吴恩达深度学习:简单卷积网络
此公众号会发表计算机考研(初复试信息)、夏令营等资料,方便考研人对信息的获取,节约自身查找资料的时间,回复408,可获得数据结构、操作系统、计算机网络、计算机组成原理全科资料简单卷积网络示例 (A Simple Convolution Network Example)上节课,我们讲了如何为卷积网络构建一个卷积层。今天我们看一个深度卷积神经网络的具体示例,顺便练习一下我们上节课所学的标记法。假设你有一张图片,你想做图片分类或图片识别,把这张图片输入定义为 x x x ,然后辨别图片中有没有猫,..原创 2020-11-15 21:59:26 · 832 阅读 · 0 评论 -
吴恩达深度学习:单层卷积网络
此公众号会发表计算机考研(初复试信息)、夏令营等资料,方便考研人对信息的获取,节约自身查找资料的时间,回复408,可获得数据结构、操作系统、计算机网络、计算机组成原理全科资料单层卷积网络 (One Layer of a Convolutional Network)今天我们要讲的是如何构建卷积神经网络的卷积层,下面来看个例子。上节课,我们已经讲了如何通过两个过滤器卷积处理一个三维图像,并输出两个不同的4×4矩阵。假设使用第一个过滤器进行卷积,得到第一个4×4矩阵。使用第二个过滤器进行卷积得到..原创 2020-11-15 21:58:23 · 958 阅读 · 0 评论 -
吴恩达深度学习:三维卷积
此公众号会发表计算机考研(初复试信息)、夏令营等资料,方便考研人对信息的获取,节约自身查找资料的时间,回复408,可获得数据结构、操作系统、计算机网络、计算机组成原理全科资料三维卷积 (Convolutions Over Volumes)你已经知道如何对二维图像做卷积了,现在看看如何执行卷积不仅仅在二维图像上,而是三维立体上。我们从一个例子开始,假如说你不仅想检测灰度图像的特征,也想检测RGB彩色图像的特征。彩色图像如果是6×6×3,这里的3指的是三个颜色通道,你可以把它想象成三个6×6图像..原创 2020-11-15 21:56:56 · 1192 阅读 · 0 评论 -
吴恩达深度学习:卷积步长
此公众号会发表计算机考研(初复试信息)、夏令营等资料,方便考研人对信息的获取,节约自身查找资料的时间,回复408,可获得数据结构、操作系统、计算机网络、计算机组成原理全科资料卷积步长 (Strided Convolutions)卷积中的步幅是另一个构建卷积神经网络的基本操作,让我向你展示一个例子。如果你想用3×3的过滤器卷积这个7×7的图像,和之前不同的是,我们把步幅设置成了2。你还和之前一样取左上方的3×3区域的元素的乘积,再加起来,最后结果为91。只是之前我们移动蓝框的步长是1,现在移动..转载 2020-11-14 00:00:52 · 2165 阅读 · 0 评论 -
吴恩达深度学习:Padding(边缘填充),卷积的缺点,解决方案
此公众号会发表计算机考研(初复试信息)、夏令营等资料,方便考研人对信息的获取,节约自身查找资料的时间,回复408,可获得数据结构、操作系统、计算机网络、计算机组成原理全科资料Padding为了构建深度神经网络,你需要学会使用的一个基本的卷积操作就是padding,让我们来看看它是如何工作的。我们在之前视频中看到,如果你用一个3×3的过滤器卷积一个6×6的图像,你最后会得到一个4×4的输出,也就是一个4×4矩阵。那是因为你的3×3过滤器在6×6矩阵中,只可能有4×4种可能的位置。这背后的数学..转载 2020-11-13 23:30:54 · 5314 阅读 · 1 评论 -
吴恩达深度学习:水平边缘计算
此公众号会发表计算机考研(初复试信息)、夏令营等资料,方便考研人对信息的获取,节约自身查找资料的时间,回复408,可获得数据结构、操作系统、计算机网络、计算机组成原理全科资料更多边缘检测内容 (More Edge Detection Example)你已经见识到用卷积运算实现垂直边缘检测,在本视频中,你将学习如何区分正边和负边,这实际就是由亮到暗与由暗到亮的区别,也就是边缘的过渡。你还能了解到其他类型的边缘检测以及如何去实现这些算法,而不要总想着去自己编写一个边缘检测程序,让我们开始吧。还..转载 2020-11-13 23:17:36 · 351 阅读 · 0 评论 -
吴恩达深度学习:卷积计算、垂直边缘计算
此公众号会发表计算机考研(初复试信息)、夏令营等资料,方便考研人对信息的获取,节约自身查找资料的时间,回复408,可获得数据结构、操作系统、计算机网络、计算机组成原理全科资料边缘检测示例 (Edge Detection Example)卷积运算是卷积神经网络最基本的组成部分,使用边缘检测作为入门样例。在这个视频中,你会看到卷积是如何进行运算的。在之前的视频中,我说过神经网络的前几层是如何检测边缘的,然后,后面的层有可能检测到物体的部分区域,更靠后的一些层可能检测到完整的物体,这个例子中就是..转载 2020-11-13 23:15:32 · 1061 阅读 · 0 评论 -
吴恩达深度学习:正交化、单一数字评估、满足优化指标
此公众号会发表计算机考研(初复试信息)、夏令营等资料,方便考研人对信息的获取,节约自身查找资料的时间目录正交化单一数字评估指标满足和优化指标 (Satisficing and Optimizing Metrics)正交化搭建建立机器学习系统的挑战之一是,你可以尝试和改变的东西太多太多了。包括,比如说,有那么多的超参数可以调。我留意到,那些效率很高的机器学习专家有个特点,他们思维清晰,对于要调整什么来达到某个效果,非常清楚,这个步骤我们称之为正交化,让我告诉你是什么意思吧。..原创 2020-11-11 21:23:58 · 625 阅读 · 0 评论 -
深度学习:批归一化(Batch Normalization)
此公众号会发表计算机考研(初复试信息)、夏令营等资料,方便考研人对信息的获取,节约自身查找资料的时间文章目录一、简介 二、BN作用 1.特征分布对神经网络训练的作用 2.BN的作用 三、BN的原理 四、BN到底解决了什么 五、预测时均值和方差怎么求? 六、卷积神经网络CNN中的BN一、简介BN是由Google于2015年提出,这是一个深度神经网络训练的技巧,它不仅可以加快了模型的收敛速度,而且更重要的是在一定程度缓解了深层网络中“梯度弥散(特征分布较散)”的问...转载 2020-11-10 00:07:16 · 724 阅读 · 0 评论 -
吴恩达深度学习:指数加权平均
此公众号会发表计算机考研(初复试信息)、夏令营等资料,方便考研人对信息的获取,节约自身查找资料的时间目录1. 什么是指数加权平均2.指数加权平均的优势3. 为什么在优化算法中使用指数加权平均4.偏差修正5. β 如何选择?6.参考1. 什么是指数加权平均指数加权平均(exponentially weighted averges),也叫指数加权移动平均,是一种常用的序列数据处理方式。它的计算公式如下:其中,θ_t:为第 t 天的实际观察值, V_...原创 2020-11-08 22:02:30 · 2277 阅读 · 0 评论 -
为什么使用Relu函数
此公众号会发表计算机考研(初复试信息)、夏令营等资料,方便考研人对信息的获取,节约自身查找资料的时间这个问题有点像问,吃涮羊肉为什么蘸芝麻酱?标准答案是:10亿AI调参侠都在用,用了都说好。但如果我们稍微深究一下,会更加深记忆,也增加对深度学习过程的理解。首先我们要明白,为什么要蘸东西吃?即:为什么要使用sigmoid,tanh,ReLU等非线性函数?这个原因大家都知道,为了增加非线性呗!深度学习的目的是用一堆神经元堆出一个函数大致的样子,然后通过大量的数据去反向拟合出这个函..原创 2020-11-08 16:47:47 · 694 阅读 · 0 评论 -
吴恩达深度学习笔记:1.12 梯度的数值逼近 | 1.13 梯度检验 | 1.14 梯度检验实施小tip
此公众号会发表计算机考研(初复试信息)、夏令营等资料,方便考研人对信息的获取,节约自身查找资料的时间目录1.12 梯度的数值逼近1.13 梯度检验1.14 梯度检验实施小tip这三小节实质上是在讲如何确保back prop正确实施,即进行back prop时,对参数求导过程是否准确。首先‘1.12梯度的数值逼近’讲通过怎样的方法,我们可以得到对求导结果一个很好的逼近;‘1.13 梯度检验’告诉我们有了1.12中提出的方法,我们可以使用这个方法去检验参数求导过程是否准...转载 2020-11-08 16:44:12 · 643 阅读 · 0 评论 -
梯度消失与梯度爆炸
当我们需要解决一个非常复杂的问题,例如在高分辨率图像中检测数百种类型的对象,我们可能需要训练一个非常深的DNN,可能需要几十层或者上百层,每层包含数百个神经元,通过成千上万个连接进行连接,我们会遇到以下问题:首先,梯度消失或梯度爆炸其次,训练缓慢第三,训练参数大于训练集的风险梯度消失的原因:生物神经元似乎是用 Sigmoid(S 型)激活函数活动的,因此研究人员在很长一段时间内坚持 Sigmoid 函数。但事实证明,Relu 激活函数通常在 ANN 工作得更好。这是生物研究误导的例子之一转载 2020-11-08 15:39:41 · 185 阅读 · 0 评论 -
深度学习优化方法总结:SGD,Momentum,AdaGrad,RMSProp,Adam
看了几篇文章,觉得这两篇写的比较简洁全面,用来后期回顾https://www.cnblogs.com/guoyaohua/p/8542554.htmlhttps://blog.csdn.net/u010089444/article/details/76725843原创 2020-10-26 21:54:19 · 184 阅读 · 0 评论