![](https://img-blog.csdnimg.cn/20201014180756780.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
深度学习
文章平均质量分 57
关切得大神
这个作者很懒,什么都没留下…
展开
-
Visual Relation of Interest Detection 2020场景图论文阅读
兴趣检测的视觉关系摘要目标是检测出对传达图像主要内容非常重要的视觉关系。但不是所有检测到的关系都是在语义上“有趣”,只有一小部分关系对表述图像的主要内容真正有意义,这种筛选出来的关系就是视觉兴趣关系(VROID),是对传统的视觉关系检测(VRD)的改进。创新点1.构建了一个新的数据集(ViROTs),有30120个图片,每个图片都有VROIs注解2.开发了兴趣传播网络(IPNet),包含 POD(全景目标检测模块),成对兴趣预测模块(PalP)和谓词兴趣模块(PrIP)POD模块从输入原创 2021-07-27 20:47:28 · 284 阅读 · 0 评论 -
Sketching Image Gist Human-Mimetic Hierarchical Scene Graph Generation 2020场景图论文阅读
摘要场景图反应了人对图像内容的感知,“当人的固有感知习惯存在的时候,会在场景分离过程中存在一个人类偏好的层次结构。它把场景定义成一系列图像区域组成的仿人层次示意图(Hierarchical Entity Tree),具体流程就是用混合LSTM(HybridLSTM),并且为了确定场景图中关键关系的优先级,设计了一个关系排序模块( relation ranking moduleRRM),通过铉锡从客观实体的显著性和大小中获取人类的主观感知习惯、介绍因为场景图在图像描述中的巨大作用,所以他很原创 2021-06-30 20:21:17 · 376 阅读 · 0 评论 -
Attention based Salient Visual Relationship Detection 202 场景图论文阅读
看这篇论文是参考自:https://zhuanlan.zhihu.com/p/258544615体现了场景图的一个新的趋势:从感知的角度出发,开始关注场景图应该表现出图片中的主要内容,这些研究需要回答的就是:1,如何定义“图片主要内容” 2.有没有训练数据3.这类场景图适合应用在什么应用场景下Salient 是突出位置,最重要的意思那就变成了 基于注意力突出视觉检测的关系摘要:为了解决之间对观察到的关系都一视同仁的问题,提出了一个实现基于局部和全局关系的先主视觉关系。介绍:关系原创 2021-06-30 20:15:06 · 222 阅读 · 3 评论 -
NLP Spacy中en_core_web_sm安装问题,及最新版下载地址
问题背景本来开开心心希望用Spacy的en_core_web_sm spacy.load("en_core_web_sm")结果人家是需要装的,不是你有了spacy就万事大吉的,于是出现以下报错:OSError: [E050] Can’t find model ‘en_core_web_sm’. It doesn’t seem to be a shortcut link, a Python package or a valid path to a data directory.于是我想直接下载转载 2021-06-09 14:46:57 · 2828 阅读 · 0 评论 -
python 运行ImportError: cannot import name ‘get_config‘ from ‘tensorflow.python.eager.context‘
应该有多种不同的解决办法,我是用这个方法解决的:把 import import keras换成:from tensorflow import keras原创 2021-06-09 14:42:28 · 27589 阅读 · 14 评论 -
pytorch Runtime Error:cuda runtime error(2):out of memory at /……/torch/…….cu:58解决办法
最近遇到了这个问题,整理了几个解决办法1.减少batch_size(应该是最常见的)2.减少 num_workers(如果有的话)3.echo $LD_LIBRARY_PATHunset LD_LIBRARY_PATH两步即可原创 2021-01-22 14:37:47 · 478 阅读 · 1 评论 -
运行看图说话代码之asg2cap:Say As You Wish: Fine-grained Control of Image Caption Generation with Abstract Sce
这篇博客的代码是来自于:https://github.com/cshizhe/asg2cap之前是帮学长运行了这篇代码,之后就进行了自己的修改总结(ps 因为这边的数据集有coco和vg,学长之前跑了coco 的,所以我尝试着跑了vg的)第一个git clone 可能是因为下载量不大的缘故,是可以实现的,然后就cd asg2cap第二个git就等了好久,于是选择了直接健康上网(或者fork之后用码云下载)然后再手动放到文件夹中export PYTHONPATH=(pwd):(pwd):(pw原创 2020-12-26 17:08:21 · 736 阅读 · 7 评论 -
小白读论文之. Show, Attend and Tell: Neural Image Caption Generation with Visual Attention
这篇论文还是还是有许多人通读的,给几个我用来参考的链接:https://www.jianshu.com/p/7582df96b081 和https://www.pianshen.com/article/819194787/https://zhuanlan.zhihu.com/p/158985765首先先看一下网上的解析,对这篇文章有一个直接的认识。他的方法就是:使用cnn提取图像特征,并将softmax层之前的那一层vector作为encoder端的输出并送入decoder中,并使用LSTM对其解码原创 2020-12-14 20:30:49 · 1674 阅读 · 0 评论 -
小白读论文之. Show and Tell Lessons learned from the 2015 MSCOCO Image Captioning Challenge
首先先了解一些知识和概念什么是 encoder和decoder方法这里是对这个解释的最全面的网站链接:https://blog.csdn.net/weixin_39653948/article/details/105672741对于encoder-decoder的理解:首先他不是一个具体的模型,而是一类框架。他的部分可以是任意的文字,语音等等,而模型也可以是CNN,RNN等等。而其中对于编码的定义就是:将输入序列转化为一个固定长度的向量,同理,解码的定义就是:将之前生成的固定的向量转化为输出序列。原创 2020-12-07 18:52:16 · 182 阅读 · 0 评论 -
DNN和RNN和DNN之间的区别
随着图像识别技术的发展,我们的现实生活中已经有可以对猫、狗进行分辨的机器了,即给机器一张猫的图片,机器可以正确的预测图片上的动物是猫。那么,机器是怎么做到的呢?在图像识别领域,应用的最多的就是深度学习,而深度学习又分为不同的模型,如前馈神经网络(feedforward neural network,DNN)、卷积神经网络(Convolutional Neural Networks,CNN)、循环神经网络(Recurrent Neural Network,RNN)等。使用不同的模型,即让机器使用不同的方法对转载 2020-12-01 10:30:13 · 1504 阅读 · 0 评论 -
在cmd中导入cv2正确,在Pycharm cv2报错的方法(亲测有效)
刚刚在弄一个Python程序的时候,发现,在命令行import cv2是没有问题的:可是在pycharm上,就会一直报错:先是在网上尝试了各种方法,有在命令行敲这个的pip install opencv-python也有在Anaconda Prompt界面敲这个的pip install opencv-python等等。都能安装成功,但是都都不奏效。然后想着直接在右上角的file-settings这个地方,直接在右上角的加号这边,去找cv2,然后直接导入:但是提示我失败了,没原创 2020-10-26 19:12:09 · 4422 阅读 · 10 评论 -
小白学习之视频描述研究生论文
主要是学习了这篇研究生论文上的对于视频描述的理解。http://www.doc88.com/p-9532573384498.html总的来说就是利用机器学习或计算机视觉等方法来提取视频的特征,并对其加以分析,在通过自然语言处理等技术生成若干个视频描述句子。在我看来也是,之前对于一些图像和声音等的研究,都可以算是基于视频描述的基础。并且对于视频的研究,从最初的2D到了3D模型,还有一些比较著名的数据库:1.UCF101 (视频行为识别的数据库)2.YUPENN和Maryland(场景识别的数据库)原创 2020-10-06 13:43:23 · 598 阅读 · 0 评论 -
小白学习深度学习之视频描述(video caption)历年部分论文
此篇文章参考自https://blog.csdn.net/sinat_35177634/article/details/88568491首先对于视频描述的理解:也就和字面意思一样,就是计算机对一段视频生成对应的描述。在我看来,视频描述就相当于是图像描述的进阶版,比起图像描述的空间信息之外,还需要一些时间上的信息以及对应的声音信息,总的来说就是需要提取更多的特征。Sequence to Sequence -Video to Text这个是视频描述相对来说比较早期的论文(15年写的),而这片论文也是没有原创 2020-10-04 14:54:21 · 3891 阅读 · 0 评论 -
文字图像处理必看论文一
以下内容全是学习自一位学长的读书笔记!!!!首先介绍一篇是Stacked Attention Networks for Image Question Answering这篇论文的作者对于VQA,是认为需要带一点推理过程的。并且采用了attention机制来实现这种分层关注的推理过程,使用常规的LSTM和CNN网络来提取特征,在用问题特征去提取attention图像,最后用这个结果结合问题向量去attention图像,最后再产生预测他使用的图像特征提取方式,还是用的VGGNet ,具体操作就原创 2020-09-21 15:14:02 · 340 阅读 · 0 评论 -
文字图像处理之视觉蕴涵
以下内容全是学习自一位学长的读书笔记!!!!视觉蕴涵首先理解一下文本蕴涵关系:也就是两个文本之间的推理关系,一个文本作为前提,一个文本作为假设,如果能根据前提推理出假设的话,那就说明前提蕴涵假设,前提->假设再次就开始熟悉,视觉蕴涵:知识是来自 Visual Entailment Task for Visually-Groundwd Language Learning 这篇论文。提出了全新的一个数据集合一个可解释性视觉蕴涵模型。视觉蕴涵的话,也就是把前提改成了图片,而不是之前的文字,由图片来推原创 2020-09-20 16:18:19 · 1517 阅读 · 0 评论 -
CS231n 斯坦福深度学习课程之摘记总结
首先是存在一些还没有解决的问题:1.语义分割或知觉分组:理解每个像素的意义而不是标记图片2.动作识别:有效识别视频中的动作3.图片理解:不仅是明白图片里有什么,而是理解图片在发生什么等等图像分类顾名思义,就是对输入的图像,通过一定的算法,将图片归类。主要是在于图片在计算机的角度来看就是一堆杂乱的像素,并且每个像素都是用RGB来描述的。这就是所谓的语义鸿沟(图片所描述的物体和计算机看到的数字举证之间的巨大差距)。处理问题的算法:比较直接的就是先确定每个物体的边缘,再得到他的特征用来识别,原创 2020-09-20 14:48:00 · 100 阅读 · 0 评论 -
文字图像处理之视频/图像描述和视觉常识推理
以下内容全是学习自一位学长的读书笔记!!!!按照之前的进度,再介绍一些研究方向视频/图像描述相当于就是把一段图片翻译成一段文字,他的难点就是在于对模块的理解和推理,主要是那些图片和自然语言。还包括对这些图片中的运动的理解。他有各式各样的模型与方法:1.encoder-Decoder2.m-RNN3.NIC等等一系列模型方法当然还要对应的数据集:...原创 2020-09-20 12:50:34 · 636 阅读 · 0 评论 -
文字图像处理之跨模态检索和VQA视觉问答
以下内容全是学习自一位学长的读书笔记!!!!1.跨模态检索他的定义就是将一个模态的数据(我暂且将认为是图片)作为查询去检索了一个与之相关的模态(我认为可以是视频)的数据,作为查询接过来返回。一般会将模态分为:1.自然语言处理(这就是传说中自然语言呀,写和说)2.视觉信号(也就是图片和视频)3.声音信号(对声音的编码和韵律)这就像在输入文字的搜索引擎上面找对应的图片和视频,这就是跨模态(专业专业!!!)他存在一些主要的方法:1.子空间方法基本思想:就是让不同模态的特征投影到一个共同潜在原创 2020-09-18 16:23:04 · 1299 阅读 · 0 评论 -
文本图像识别学习入门
以下内容全是学习自一位学长的读书笔记!!!!首先知道一个概念叫模态,他是指事物发生或者存在的方式,而我需要了解的是,文本和图像这两种模态,并理解文本图像对齐任务,也就是结合了计算机视觉和自然语言处理的任务1.现在基本上是有五个研究方向:表征转化对齐融合协同学习表征有两种研究方向:1.联合表征:将多个模态的信息一起映射到一个统一的多模态向量空间2.协同表征:将多模态的每个魔台分别映射到格子的便是空间,但是映射之后的向量有一定的相关性约束。转化将一个模态的信息转化为另一个模态的原创 2020-09-18 15:01:50 · 744 阅读 · 0 评论 -
深度学习与计算机视觉八
目标检测算法1.滑窗法思路很简单,首先需要一个已经训练好的分类器,然后把图像按照一定间隔和不同的大小分成一个个窗口,在这些窗口上执行分类器,如果得到较高的分类分数,就认为是检测到了物体,把每个窗口都用分类器执行一遍之后,再对得到的分数做一些后处理的操作。2.PASCAL VOC .mAP和IOU简介他是一套用于评估图像分类,检测,分割和人体姿势动作等的数据集。...原创 2020-09-06 17:45:24 · 600 阅读 · 0 评论 -
深度学习与计算机视觉七
迁移学习和模型微调1.学习提高Python采集美食图片不采用网上常见的CIFAR,Caltech-101甚至是ImageNet等数据集,而是用自行采集的美食图片,并训练一个专门的分类模型,数据的采集通过搜集引擎返回的图片URL。1.1通过关键词和图片搜索引擎下载图片也就是通过静态网页中图片链接下载图片,思路就是通过搜索引擎中搜索给定关键字,再对返回结果的静态网页版本的源代码进行匹配找到所有图片的url,具体实现的思路就是:先在一个文本文件中,以UTF_8格式保存需要下载食品的关键词列表,再编写原创 2020-09-03 14:21:27 · 218 阅读 · 0 评论 -
深度学习与计算机视觉六
目标检测1.目标检测算法简介1.1滑窗法滑窗法的思路及其简单,需要一个已经训练好的分类器,然后把图像按照一定间隔和不同大小分成一个个窗户,在这些窗户上执行分类器,如果得到较高的分类分数,就被认为是检测到了物体,把每个窗口都用分类器执行一遍之后,再对得到的分数做一些后处理,比如非极大值抑制等,最后就得到了物体类别和对应区域。1.2PASCAL VOC,mAP和IOU简介PASCAL VOC是一套用于评估图像分类,检测,分割和人体姿势动作等数据集,有4大类共20个细分类别。从直观上讲,评价一个检测算原创 2020-09-02 10:55:33 · 135 阅读 · 0 评论 -
深度学习与计算机视觉五
手写数字识别1.准备数据-MNIST首先需要下载MNIST,在Linux下的话,就直接用wget就行wget https://deeplearning.net/data/mnist/mnist.pkl.gz2.生成MNIST的图片mnist.pkl.gz这个压缩包是数据的训练集,验证集和测试集用pickle导出的文件被压缩为gzip格式,所以用gzip模块当成文件就可以读取。3.基于Caffe的实现1.先制作LMDB数据他是Caffe中最常见的一种数据库格式,也就是闪电般快速的内存映射型原创 2020-08-28 11:20:40 · 201 阅读 · 0 评论 -
深度学习与计算机视觉四
进入实战阶段,用一个HELLO WORLD级别的神经网络小例子来进行一个最基本的训练和预测的流程,以及MXNet和Caffe这两种框架的基本使用。1.MXnet实现一个神经网络1.1基础工具,NVIDIA驱动和cuda安装首先是安装一些开发工具包,比如git ,atlas和图可视化的graphviz等等,执行下列命令行就行:sudo apt updatesudo apt install build-essential git libatlas-base-devsudo pip install原创 2020-08-27 15:19:40 · 155 阅读 · 2 评论 -
深度学习与计算机视觉三
监督学习,非监督学习,半监督学习和强化学习监督学习的意思是用来训练网络的数据,我们已经知道其对应的输出,这个输出可以是一个类别标签,也可以是一个或者多个值,模型经过训练之后,遇到新的数据,可以预测对应的标签,已知标签的分类和回归问题都属于监督学习。非监督学习并不知道数据的变迁,而是根据数据本身的特征,从数据中根据某种度量学习出一些特征。在这两种情况之下,还有比较常见的就是部分数据有标签,部分没有,把这两种数据都利用起来,称之为半监督学习,最后在大数据的趋势之下,越来越流行的一个概念叫做弱监督学习,就是原创 2020-08-27 10:51:49 · 271 阅读 · 0 评论 -
深度学习与计算机视觉二
神经网络和机器学习基础感知器感知器的结构就是以一个向量作为输入,计算输入每一维度的值的线性组合,再和一个阈值进行对比,高于阈值输出1,否则输出-1也就是加权求和,然后再和b进行比大小。1.感知机和线性二分类感知机和神经元的相似之处在于,第一,多个输入到一个结点,第二神经元总是输入电位超过阈值电位后,释放一个输出,这对感知机以0为阈值对应1和-1的不同输出,功能上就大不一样了,这个结构实质能解决的是在多维空间中的线性分类问题。2.激活函数感知机里有两个最基本的成分,计算输入向量的一个线性变换,原创 2020-08-24 14:01:17 · 241 阅读 · 0 评论 -
深度学习与计算机视觉一
先了解一些概率论知识1.熵熵在物理和信息论中都是一个重要的概念,是用来衡量一个分布的无序程度,熵的定义是:熵和平均编码长度,熵代表着根据信息的概率分布对信息编码所需要的最短平均编码长度,2.最大似然估计似然函数是比较直观的理解就是给定了观测到的数据,和分布的形式,把分布的参数作为输入,得到在该组参数下观测到的数据x在该分布下的概率,根据似然函数的描述,有一个很自然的问题,就是如果给定观测的数据和分布,然后才能找到一组参数,让分布的数据最大程度地吻和,最大似然估计就是解决这个问题。3.KL散原创 2020-08-21 09:56:45 · 423 阅读 · 0 评论 -
PyTorch实战之Neural-Style(使用PyTorch进行风格迁移)
也就是使用预训练的卷积神经网络来实现艺术家的风格迁移。1.背景介绍Neural_Style也叫做Neural-Transfer,这个算法就是输入一张图片,然后选择一种艺术风格图片,算法会将他们两个融合在一起,让输入的图片达到这种艺术的效果。2.原理分析首先是需要让融合图片和原始图片有尽可能高的相似度,或者说尽可能低的差异性,同时也需要让融合图片和风格图片在风格上尽可能相近。1.内容差异最简单的想法就是将两张图片的每个像素点逐一进行比较,可以看作是均方误差,也就是求一下差,在计算平方的和,在定义风原创 2020-08-19 17:25:27 · 928 阅读 · 0 评论 -
PyTorch实战之猫狗大战(运用预训练卷积神经网络进行特征提取与预测)
1.背景介绍网络保护通常面临的一个难题就是,他应该让人能够很容易地识别,而让机器无法识别,比如验证码,可以有效地减少垃圾邮件,还能防止用户的密码被恶意破解。2.原理分析最好的办法就是使用迁移学习,通过迁移学习,来让没有太多计算资源的人也能顺利实现深度学习中复杂模型的训练。迁移学习在机器学习的经典监督学习场景中,如果针对一些任务A训练一个模型,会通过提供任务A的数据和标签来进行训练,现在已经在给定的数据集上训练了一个模型A,并期望他在同一个任务和未知数据上表现良好,在另外一种情况之下,当给定一些任务原创 2020-08-19 10:22:48 · 1835 阅读 · 0 评论 -
深度学习之pytorch(七)
生成对抗网络这一部分从最简单的生产模型入手,包括自动编码器和变分自动编码器,再介绍了生成对抗网络的创新和原理,以及为何生成对抗网络能够成为现在最热门的研究领域。生成模型属于概率统计和机器学习,是一系列用于随机生成可观测数据的模型,也就是生成的样本和真实的样本尽可能相似。最主要的功能就是学习概率分布和生成数据。自动编码器特点如下:跟数据相关程度很高,这也意味着自动编码器只能压缩与训练数据相似的数据,因为使用神经网络提取的特征一般是高度相关与原始的训练集,使用人脸训练出来的自动编码器再压缩自然界动物的原创 2020-08-19 09:08:05 · 213 阅读 · 0 评论 -
深度学习之pytorch(六)
自然语言处理的应用一般来说,循环神经网路目前在自然语言处理上面的应用最为火热。1.词嵌入他也被称为词向量,他的意思就是,对于每个词,可以使用一个高维向量去表示它,这里高维向量和one-hot的区别在于,这个向量不是0和1的形式,向量的每个位都是一些实数,并且这些实数隐含这个单词的某种属性。词嵌入在PyTorch中的实现N Gram模型他的作用就是在于用前面几个词来预测这些词后面的一个单词,但是他有一个缺点,就是这个公式的参数空间过大,为了解决这问题,就需要引入马尔科夫假设,也就是说这个单词只和原创 2020-08-18 12:42:01 · 250 阅读 · 0 评论 -
深度学习之pytorch(五)
图像增强的方法从图像增强的方面入手,提高模型的准确率和泛化能力因为对于计算机来说,他们看的是像素,所以当一个图片的位置发生改变的时候,他本身的像素变换还是很大的。这些都是在PyTorch中内置的一些方法,torchvision,transforms包含了所有图像增强的方法,第一个函数Scale,是对图片的尺寸进行缩小和放大,再是CenterCrop,对图像正中心进行给定大小的裁剪,RandomCrop,对图片进行给定大小的随机裁剪,RandomHorizaontalFlip,对图片进行概率为0.5的随原创 2020-08-18 09:18:52 · 169 阅读 · 0 评论 -
深度学习之pytorch(四)
卷积神经网络训练数据的方法就是会给计算机提供每种类别 的图片,让机器自己去学习其中的特征并形成一个算法,因为这些算法是依赖于数据集的,所以也被称为是数据驱动的算法。卷积神经网络的原理1.局部性往往图片的的类别是通过图片的特征来决定的,而这些决定一般是由一些局部的区域决定的。2.相同性对于不同的图片,如果有同样的特征,这些特征会出现在图片的不同位置,也就是说可以用同样的检测模式去检测不同图片的相同特征,也就是操作是一样的,但是位置是不一样的。3.不变性也就是对一张大图片,进行采样(放大),图原创 2020-08-17 17:42:31 · 247 阅读 · 0 评论 -
深度学习之pytorch(三)
神经网络的结构最常见的神经网络是全连接神经网络,其中两个相邻层中每一个层的所有神经元和另外一个层的所有神经元都是相连的,每个层内部的神经元不相连。N层神经网络是不会把输入层算进去的,因此一个一层的神经网络是指没有隐藏层,只有输入和输出层的神经网络,就像logistic回归就是一个一层的神经网络。模型的表示能力与容量这里出现了一个名词叫做:过拟合:在忽略了潜在的数据关系的前提之下,将噪音的干扰放大了。深度学习的基石:反向传播算法它是一个有效地求解梯度的算法,本质上其实就是一个链式求导法则的应用。原创 2020-08-17 13:19:21 · 256 阅读 · 0 评论 -
深度学习之pytorch(二)
接下来从机器学习最简单的线性模型入手线性模型就是***给定很多个数据点,希望能够找到一个函数来拟合这些数据点使其误差最小,比如最简单的一元线性模型***一般函数表示的形式是:而也可以用向量的形式表示:f(x)=wTx+b一维线性回归首先介绍一下,均方误差:使用他们的差值平方之和,(取平方是因为把有正有负的距离都变成正的),有着很好的几何意义,对应了常用的欧几里得距离,基于均方误差最小化来进行模型求解的办法。求解方法就是让其偏导数等于0,从而估计它的参数。多维线性回归用最小二乘法对w原创 2020-08-14 14:45:15 · 293 阅读 · 0 评论 -
深度学习之pytorch(一)
首先热身先了解一下pytorch的基础1.tensor(张量)他是张量的英文,表示一个多维的矩阵,比如零维就是一个点,一维就是向量,二维就是一般的矩阵,和numpy对应。(但是pytorch可以在GPU上运行,而numpy的只能在CPU上运行)它有各种不同的数据类型,比如32位的torch.Float和64位的torch.DoubleTensor等等。并且他的默认是torch.FloatTensor类型,也就是32位浮点型并且可以尝试用一个函数来判断是否支持GPUif torch.cuda.i原创 2020-08-14 10:41:57 · 279 阅读 · 0 评论