![](https://img-blog.csdnimg.cn/20201014180756916.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
深度学习
文章平均质量分 79
开心的火龙果
这个作者很懒,什么都没留下…
展开
-
MoCoViT: Mobile Convolutional Vision Transformer
本文提出了MoCoViT,一个可以用于移动设备的轻量级的VIT结构。本文主要以GhostNet为基础,加入了改进版的transformer block。原创 2022-06-02 10:13:28 · 919 阅读 · 0 评论 -
Conditional Prompt Learning for Vision-Language Models
本文是对CoOp方法提出的改进。CoOp由论文Learning to Prompt for Vision-Language Models提出,CoOp针对CLIP模型做了改进,将人工设计的提示修改为了可学习的参数,具体来说就是,CoOp不再使用"[x]的照片"作为提示,而是引入了M个可学习的提示向量。由于CoOp学到的提示参数存在对训练集过拟合的现象,在新类别上的泛化性能不好,因此作者又进一步提出了CoCoOp。CoCoOp加入了一个轻量的模型,用于为每个输入图像生成一个补充提示向量,提升模型在新类别上的泛原创 2022-04-06 19:48:35 · 1649 阅读 · 0 评论 -
HCSC: Hierarchical Contrastive Selective Coding 解读
HCSC: Hierarchical Contrastive Selective Coding在图像数据集中,往往存在分层级的语义结构,例如狗这一层级的图像中又可以划分为贵宾、金毛等细粒度的类别。例如这张图,展示了一个数据集中的多种语音层级。在学习图像表征时,如果能把图像语义的层级关系学习进去,能够极大地提升图像表征在下游任务上的表现。先前提出的对比学习方法在建模时都忽略了这部分,本文提出了一种新的对比学习框架,Hierarchical Contrastive Selective Coding .原创 2022-03-28 14:37:52 · 2768 阅读 · 0 评论 -
CLIP解读
CLIP:Learning Transferable Visual Models From Natural Language SupervisionOpenAI的CLIP这篇文章,从互联网收集构建了了4亿个图片-文本对的数据集,对图像和文本通过编码器提取的Embedding使用对比学习方式训练,得到对齐的图像&文本Embedding,并用在Zero-shot学习任务中。训练好的模型开源在:https://github.com/openai/CLIP论文分享了作者一些观点:1、不采用图原创 2022-03-02 16:15:38 · 3590 阅读 · 0 评论 -
P-tuning v1 v2
### GPT Understands, Too (P-tuning)根据训练目标,预训练语言模型能够划分为三种类型:1. 单向语言模型:GPT,用于自然语言生成任务2. 双向语言模型:BERT,用于自然语言理解任务3. 混合语言模型:UniLM,是上述两种方法的结合在以前,研究者们认为GPT类型的模型在自然语言理解任务上表现不好。随着GPT-3的出现,这个看法被打破了。只要设计出合适的prompt,单向语言模型也能够在自然语言理解任务上有出色表现。但prompt的设计并不容易,往往一个单词的原创 2022-02-27 11:20:55 · 4881 阅读 · 0 评论 -
Spatio-Temporal Tuples Transformer for Skeleton-Based Action Recognition
Spatio-Temporal Tuples Transformer for Skeleton-Based Action Recognition本篇文章针对基于骨架的行为识别进行了研究,提出了一种时空元组transformer。该方法能够在连续帧中建立不同关节的关系,有比较强的区分相似动作的能力,达到了sota。帧之间不同关节的相关性对行为识别非常有用,在一个动作中,相邻帧之间的不同身体部位常常是一起移动的(例如"跳远"中的手臂和腿)。Kaiming He等曾提出一个时空transformer结构,该结原创 2022-02-14 17:44:15 · 1402 阅读 · 1 评论 -
Relational Graph Learning on Visual and Kinematics Embeddings for Accurate Gesture Recognition in Ro
【ICRA:Best Paper Award in Medical Robotics】Relational Graph Learning on Visual and Kinematics Embeddings for Accurate Gesture Recognition in Robotic Surgery本文提出了一种在线多模态图学习方法,可动态整合机器人系统的视频数据和运动学数据,实现针对机器人系统的手术手势识别。本文方法在公共JIGSAWS数据集上达到sota,在缝合和打结任务上都优于当前的单模原创 2022-02-14 17:41:57 · 1862 阅读 · 0 评论 -
UNICORN论文阅读
Crossing the Format Boundary of Text and Boxes: Towards Unified Vision-Language Modeling本篇论文提出了一个通用的视觉语言模型(命名为UNICORN),该模型将文本生成和bbox预测统一在一个模型结构中。针对下述的4个任务,本模型在7个VL benchmarks上面都达到了和sota可比较的结果。(1)visual grounding:给出一张图像和一个物体描述,生成该物体的bbox;(2)grounded imag原创 2022-02-14 17:39:04 · 1923 阅读 · 0 评论 -
prompt综述论文阅读:Pre-train, Prompt, and Predict: A Systematic Survey of Prompting Methods in Natural La
prompt综述论文阅读:Pre-train, Prompt, and Predict: A Systematic Survey of Prompting Methods in Natural Language Processing原创 2022-02-14 17:29:51 · 1638 阅读 · 0 评论 -
空洞卷积的简单理解
空洞卷积诞生背景:诞生于图像分割任务,图像分割任务一方面通过卷积池化过程进行降采样不断扩大感受野,从而提取图像的主要特征。另一方面,通过上采样将特征图还原成原图大小。降采样的过程中由于卷积和池化操作使得一些小的特征和物体的边缘特征被损失掉了,在上采样时也无法还原,导致图像分割的精细度不够。因此,人们构思一种能够减少信息损失的扩大感受也的方法,诞生了空洞卷积。空洞卷积的计算方法:图a是一般的3*3卷积的感受野;图b是在图a卷积基础上,空洞参数设置为2,3*3卷积的感受野;在原始3*3卷积的基.原创 2021-03-16 22:19:28 · 368 阅读 · 0 评论 -
yolov1/v2/v3学习总结
yolov1的文章建立了yolo整个的模型思路,后面出现的v2/v3/v4都是在v1基础上增加了当时流行的trick进行的修改。yolo属于一阶段的目标检测模型,与rcnn系列相比,牺牲了一定的精度,但是速度更快。yolov1首先介绍yolov1。yolo通过将全图作为模型输入,直接在卷积网络后面加分类层得到目标的位置和类别。这个思路是很简单直接的,会起作用主要在于很多实现细节。1. 如何针对...原创 2020-05-05 23:52:03 · 566 阅读 · 0 评论 -
torch学习记录
数据流Datasetpytorch实现了一个基类Dataset来帮助构建数据集对象。要想实现自己的数据集类需要基于torch.utils.data.Dataset来完成,并需要在类中实现两个方法,分别是:__getitem__:用于返回一条数据,DATA_CLASS[index]相当于DATA_CLASS.__getitem__(index)__len__:用于返回样本数量,len(DAT...原创 2020-01-18 15:13:02 · 191 阅读 · 0 评论 -
mmdetection源码阅读
阅读从tools/train.py开始。功能模块Register类位置:utils/registry.py用于注册起到相同作用的(例如coco/voc数据类、模型类、数据处理流程类)类别。具体功能是这样的。Register的__init__加载了两个属性,分别是name,module_dict.Register有两个主要功能函数,分别是register_module,get.假设我...原创 2020-01-07 21:10:44 · 586 阅读 · 1 评论 -
CNN模型可视化
1 引言要说起深度学习中最为常用和广为人知的网络模型,就要数卷积神经网络(Convolutional Neural Networks, CNN)了。CNN目前在语音识别,图像分类,图像分割,自然语言处理等领域都取得了巨大的成功,虽然这些领域的问题并不相同,但CNN可以从大规模数据中提取特征,从而帮助完成图像分类、文本分类等问题。人们常常说深度学习是一个黑盒,是因为我们虽然知道CNN从数据中提取...原创 2019-05-16 13:56:55 · 1828 阅读 · 0 评论 -
翻译:Attention-based Extraction of Structured Information from Street View Imagery
摘要 - 我们提出了一种神经网络模型 - 基于卷积神经网络,回归神经网络和一种新颖的注意机制 - 在具有挑战性的法国街道名称标志(FSNS)数据集上达到84.2%的准确率,明显优于先前的技术水平(Smith') 16),达到72.46%。 此外,我们的新方法比以前的方法更简单,更通用。 为了证明我们模型的一般性,我们证明它在从Google街景视图中衍生的更具挑战性的数据集上也表现良好,其目标是从商...原创 2019-02-16 16:45:20 · 937 阅读 · 0 评论 -
卷积神经网络模型解释性调研
前言最近在训练一个鉴黄模型,模型训练出来之后发现模型对粉色背景的图片、人体占图片大面积比例的图片十分敏感,导致这些正常图片容易被误判为黄图,因此,需要进行模型解释性方面的研究,来看看模型究竟是根据什么来进行图片分类的。这里主要会介绍三篇论文,分别是:Visualizing and Understanding Convolutional NetworksLearning Deep Feat...原创 2018-12-03 00:36:20 · 819 阅读 · 0 评论 -
多维度卷积、rpn、fpn网络相关知识点记录
有一些记了又忘,忘了又记的东西,在这里留存一下。大概我快老年痴呆了。一 多维度卷积对于卷积的计算,思维常常停留在一个维度上,很少去考虑实际上,在卷积的时候是多维度的。多维度的计算也总是迷迷糊糊。这张图可以说的很清楚,当我们要对一个3通道的图像(也就是上图中的蓝色框)进行卷积时,则使用3通道的卷积核(即上图中粉色的方框),对上述27个计算得到的三维数字求和,即得到中间像素的卷积结果。如果我们想要得到...原创 2018-05-03 14:53:37 · 1923 阅读 · 0 评论 -
ctpn、east阅读要点记录
最近要做一些ocr的事情,阅读了文字定位的相关论文,主要是ctpn和east.下面对这两篇论文的药店进行一个记录。CTPNctpn结合了卷积神经网络和循环神经网络。卷机神经网络用于提取图片特征,循环神经网络能够帮助提升对文字的定位和分类的准确度(文中对使用和不适用rnn的结果进行了对比)。下面对网络结构进行一个介绍。首先是通过VGG16的卷积层进行特征提取,这里使用了vgg的五层卷...原创 2018-07-23 00:27:02 · 1654 阅读 · 0 评论 -
小目标检测论文阅读
下面记录了一些论文的阅读总结:算法发展历程:传统图像算法:传统图像算法使用hand-made feature,常用方法有SIFT、HOG、图像金字塔等。对于小目标的检测,传统图像算法有人工复杂度高,模型泛化性差等缺点,因此逐渐被深度学习模型取代。深度学习:小目标检测在深度学习卷积神经网络模型中一直是一个难题。早期的目标检测框架(R-CNN、YOLO系列)对于小目标检测的效果都不甚良...原创 2018-08-26 11:15:33 · 18418 阅读 · 8 评论 -
CRNN论文阅读占坑
CRNN:目前常用的字符识别模型 但在实践过程中发现 该模型无论在训练还是测试上效果都不够优秀 说明OCR领域还有许多需要研究的地方 CRNN模型也有许多可改进之处简单来说,模型的结构就是一个卷积网络+双向lstm+全连接层进行分类+ctc解码识别卷积将一个大小为32*100的原图转化为了1*25大小的特征图,然后送进lstm 主要进行了三次训练,分别是基于中文诗句数据集、英...原创 2018-08-21 22:04:19 · 1621 阅读 · 0 评论 -
建立简单的卷积神经网络训练分类器,识别九宫格、四宫格等图片
本文想实现一个分类器模型,该模型能够识别出九宫格图片并将图片进行切割,首先我要构造训练集,也就是自己生成一些九宫格图片。其中r=3表示将其切割为3行,c=3表示将其切割为3列。你也可以生成4宫格图片。import cv2import os#image_path=r'C:\Users\hou\Desktop\timg.jpg'def cut(image_path,r=3,c=3):...原创 2018-09-01 08:09:00 · 1298 阅读 · 2 评论 -
关于rnn的学习
rnn主要是用来解决时间序列信息的问题,当一个信息在不同的t上具有前后关系时,使用rnn可以学习到前后信息之间的联系。比如针对语音识别、文字识别这种具有上下文联系的问题,我们就可以利用rnn来进行学习。rnn如何将上下文的信息联系起来呢?这里可以联系到之前学习到的时间序列分析的思想,一个简单的时间序列模型MA模型:就是根据之前p个时刻的信息来建立线性方程,从而预测t+1时刻的结果。rnn同样借...原创 2018-10-14 18:40:43 · 632 阅读 · 0 评论 -
FPN特征金字塔网络--论文解读
这篇文章我认为算是对用卷积神经网络进行目标检测方法的一种改进,通过提取多尺度的特征信息进行融合,进而提高目标检测的精度,特别是在小物体检测上的精度。 文章的思想比较简单,主要是利用特征金字塔对不同层次的特征进行尺度变化后,再进行信息融合,从而可以提取到比较低层的信息,也就是相对顶层特征来说更加详细的信息。顶层特征在不断地卷积池化过程中可能忽略了小物体的一些信息,特征金字塔通过不同...原创 2018-01-14 11:19:51 · 15907 阅读 · 5 评论