深度学习
文章平均质量分 80
难受啊!马飞...
机器学习已经变成实验科学了
展开
-
图像中目标的绝对位置信息(2)--Global Pooling, More than Meets the Eye: Position Information is Encoded Channel-
首先,本文是翻译了ICLR2020的一篇文章:Global Pooling, More than Meets the Eye: Position Information is Encoded Channel-Wise in CNNs大家直接搜名字就可以下载了。读完这篇论文,有两个比较意外的感受。第一,惊讶于如此基础性的内容,之前竟然没有相关研究。第二,作者的思路(包括网络构造、训练及评价指标)也比较简单。这篇论文获得了ICLR满分,并被评为Spotlight。可见,基础性的东西仍然存在研究的空间。这篇论原创 2021-10-21 00:23:34 · 2704 阅读 · 13 评论 -
我的一些视觉工具(1)之动作预测--逐行详解C3D代码(Pytorch)
该博客主要参考这个工程提供的代码我们在他们代码的基础之上进行魔改当然了,既然要魔改人家的数据,肯定要先把人家的思路看明白。对于3D神经网络来讲,好多小伙伴最关心的肯定还是数据的喂入方法和数据集的格式喽。下第一个部分就是详细第一个部分就是1. 输入数据–数据预处理1.1 输入数据的格式C3D时直接处理视频数据的,但是这并不意味着C3D模型的输入数据就是视频。实际上,C3D模型的输入也是一系列的图像,这里面图像的格式是:[c,l,h,w][c,l,h,w][c,l,h,w],其中,ccc是图像通道原创 2022-03-30 18:42:44 · 3500 阅读 · 10 评论 -
Windows下,Pytorch使用Imagenet-1K训练ResNet的经验(有代码)
感谢中科院,感谢东南大学,感谢南京医科大,感谢江苏省人民医院以的赞助题记-----------------只有与ImageNet真正殴打过一次才算是真的到了深度学习的坑边,下一步才是入坑。引用装备所兰海大佬的一句话:能借鉴别人经验的一定要借鉴别人的经验,不叫人家已经过河了,你还假装在河里摸石头,别装了。1. 下载Imagent-1k数据集首先,ImageNet数据集大家都可以通过百度云下载。可以通过我这便的链接下载。链接:https://pan.baidu.com/s/1NlenXev0cN原创 2021-12-22 20:00:10 · 22035 阅读 · 23 评论 -
将ImageNet的验证集val数据分类到不同文件夹中
感谢中科院,感谢东南大学,感谢南京医科大,感谢江苏省人民医院的支持不多说了,直接上代码需要指出的是,imagenet-1k的test数据集是没有标签的。一开始,val数据是这样的,处理好的验证数据集第一步,生成val中每个类对应的文件夹import osdef mkdir(path): folder = os.path.exists(path) if not folder: os.makedirs(path) print(path + "--原创 2021-12-21 21:19:52 · 15282 阅读 · 14 评论 -
Win10 安装CUDA10(包括各种版本的CUDA和cuDNN下载链接)
我用的是Tensorflow1.15和keras2.3.1.环境是用Anaconda管理的首先是各种版本的DUDA的下载链接https://developer.nvidia.com/cuda-toolkit-archive网页打开之后是这样的原创 2021-11-20 13:41:10 · 2391 阅读 · 0 评论 -
深度学习指标:准确率acc,精确率precision,召回率recall,f1-score的通俗解释
TP: 将正类预测为正类数FN: 将正类预测为负类数FP: 将负类预测为正类数TN: 将负类预测为负类数准确率(accuracy) = 预测对的/所有 = (TP+TN)/(TP+FN+FP+TN)精确率(precision) = TP/(TP+FP)召回率(recall) = TP/(TP+FN)f-score = 精确率 * 召回率 * 2 / (精确率 + 召回率)举个例子最近正好做 男女儿童的分类,举个具体的例子解释一下:假设 儿童5w, 识别成儿童的有4w, 识别成other原创 2021-11-04 15:14:47 · 21136 阅读 · 1 评论 -
图像中目标的绝对位置信息(1)--How much Position Information Do Convolutional Neural Networks Encode
一般来讲,我们的常规认识是:随着卷积层的增多,尤其是使用pooling层,导致图像中目标的位置信息都被丢弃了。然而,事实上并不是会这样。这篇论文的研究成果告诉我们。位置信息没有丢失,只是跟语义信息共享特征了。我们之所以没有过多的去研究位置信息,只是因为目前的针对CNN的使用并没有迫切的需要使用位置信息。这篇文章只回答了CNN存储了位置信息,但是并没有给出如何有效提取位置信息,只是告诉我们在图像中为增加zero-padding可以帮助CNN提取位置信息,或者说更关注位置信息。灌入如何提取位置信息,在这一原创 2021-10-22 17:12:27 · 3376 阅读 · 11 评论 -
Keras-Keras fit和fit_generator
Keras .fit函数调用.fit:model.fit(trainX, trainY, batch_size=32, epochs=50)一般来讲,model.fit调用起来比较简单。首先需要提供训练数据集和数据集的标签。然后需要提供训练批次的大小和迭代次数。对.fit的调用在这里做出两个主要假设:我们的整个训练集可以放入RAM没有数据增强(即不需要Keras生成器)相反,我们的网络模型将在原始数据上训练。原始数据本身将适合内存,我们无需将旧批量数据从RAM中移出并将新批量数据移入R原创 2021-09-04 23:31:37 · 654 阅读 · 0 评论 -
传统CNN的概念理解--LeNet-5
CNN结构可视化的神器没错,看到这个网站了吗。有了这个网站,我们可以把CNN的结构很好的可视化。基本上可以解释你对CNN的 feather map和卷积核filter的所有疑惑。https://www.cs.ryerson.ca/~aharley/vis/conv/不多说了,上面就是这个可视化工具的网址。这个可视化工具的CNN框架是LeNet-5。来,我们看一下LeNet-5的网络结构。正好啊,这个网络的输入是单通道灰度图为例的。2 CNN的一些专用名词feature map、卷积核、原创 2021-08-29 23:28:54 · 652 阅读 · 0 评论 -
一看就懂的LSTM+Attention,此处用softmax求概率
1。 序言首先呢,我是看这两篇片文章的。但是呢,他们一个写的很笼统,一个是根据Encoder-Decoder和Query(key,value)。第二个讲的太深奥了,绕来绕去,看了两天才知道他的想法。https://segmentfault.com/a/1190000014574524 这个是讲的很笼统的https://blog.csdn.net/qq_40027052/article/details/78421155 这个是讲的太深奥的。本文 的一些基础知识还是基于第二个博客展开。但是我通原创 2021-08-23 17:59:05 · 26615 阅读 · 24 评论 -
Zero-shot learning(二):ZSL关于嵌入模型的理解
Zero-shot learning(二):ZSL关于嵌入模型的理解前言--------从上述基本技术路线中,我们可知在零样本学习问题中存在四大关键技术。一是图片特征的提取方式。现实世界中,图片数据复杂冗余、千变万化,为图片学习具有语义性的待征,对于缩小与高层语义之间的鸿沟具有重要作用。二是语义嵌入空间的构造方式。不同的语义嵌入空间通常反映了物体类标签的不同语义性,如何构造合适的语义嵌入空...原创 2020-04-24 16:21:10 · 1683 阅读 · 1 评论