开心的火龙果-CSDN博客

原创 FPN特征金字塔网络--论文解读

这篇文章我认为算是对用卷积神经网络进行目标检测方法的一种改进，通过提取多尺度的特征信息进行融合，进而提高目标检测的精度，特别是在小物体检测上的精度。文章的思想比较简单，主要是利用特征金字塔对不同层次的特征进行尺度变化后，再进行信息融合，从而可以提取到比较低层的信息，也就是相对顶层特征来说更加详细的信息。顶层特征在不断地卷积池化过程中可能忽略了小物体的一些信息，特征金字塔通过不同...

2018-01-14 11:19:51 15910 5

原创 MoCoViT: Mobile Convolutional Vision Transformer

本文提出了MoCoViT，一个可以用于移动设备的轻量级的VIT结构。本文主要以GhostNet为基础，加入了改进版的transformer block。

2022-06-02 10:13:28 919

原创 Conditional Prompt Learning for Vision-Language Models

本文是对CoOp方法提出的改进。CoOp由论文Learning to Prompt for Vision-Language Models提出，CoOp针对CLIP模型做了改进，将人工设计的提示修改为了可学习的参数，具体来说就是，CoOp不再使用"[x]的照片"作为提示，而是引入了M个可学习的提示向量。由于CoOp学到的提示参数存在对训练集过拟合的现象，在新类别上的泛化性能不好，因此作者又进一步提出了CoCoOp。CoCoOp加入了一个轻量的模型，用于为每个输入图像生成一个补充提示向量，提升模型在新类别上的泛

2022-04-06 19:48:35 1654

原创 HCSC: Hierarchical Contrastive Selective Coding 解读

HCSC: Hierarchical Contrastive Selective Coding在图像数据集中，往往存在分层级的语义结构，例如狗这一层级的图像中又可以划分为贵宾、金毛等细粒度的类别。例如这张图，展示了一个数据集中的多种语音层级。在学习图像表征时，如果能把图像语义的层级关系学习进去，能够极大地提升图像表征在下游任务上的表现。先前提出的对比学习方法在建模时都忽略了这部分，本文提出了一种新的对比学习框架，Hierarchical Contrastive Selective Coding .

2022-03-28 14:37:52 2776

原创 CLIP解读

CLIP：Learning Transferable Visual Models From Natural Language SupervisionOpenAI的CLIP这篇文章，从互联网收集构建了了4亿个图片-文本对的数据集，对图像和文本通过编码器提取的Embedding使用对比学习方式训练，得到对齐的图像&文本Embedding，并用在Zero-shot学习任务中。训练好的模型开源在：https://github.com/openai/CLIP论文分享了作者一些观点：1、不采用图

2022-03-02 16:15:38 3595

原创 P-tuning v1 v2

### GPT Understands, Too (P-tuning)根据训练目标，预训练语言模型能够划分为三种类型：1. 单向语言模型：GPT，用于自然语言生成任务2. 双向语言模型：BERT，用于自然语言理解任务3. 混合语言模型：UniLM，是上述两种方法的结合在以前，研究者们认为GPT类型的模型在自然语言理解任务上表现不好。随着GPT-3的出现，这个看法被打破了。只要设计出合适的prompt，单向语言模型也能够在自然语言理解任务上有出色表现。但prompt的设计并不容易，往往一个单词的

2022-02-27 11:20:55 4896

原创 Spatio-Temporal Tuples Transformer for Skeleton-Based Action Recognition

Spatio-Temporal Tuples Transformer for Skeleton-Based Action Recognition本篇文章针对基于骨架的行为识别进行了研究，提出了一种时空元组transformer。该方法能够在连续帧中建立不同关节的关系，有比较强的区分相似动作的能力，达到了sota。帧之间不同关节的相关性对行为识别非常有用，在一个动作中，相邻帧之间的不同身体部位常常是一起移动的（例如"跳远"中的手臂和腿）。Kaiming He等曾提出一个时空transformer结构，该结

2022-02-14 17:44:15 1410 1

原创 Relational Graph Learning on Visual and Kinematics Embeddings for Accurate Gesture Recognition in Ro

【ICRA:Best Paper Award in Medical Robotics】Relational Graph Learning on Visual and Kinematics Embeddings for Accurate Gesture Recognition in Robotic Surgery本文提出了一种在线多模态图学习方法，可动态整合机器人系统的视频数据和运动学数据，实现针对机器人系统的手术手势识别。本文方法在公共JIGSAWS数据集上达到sota，在缝合和打结任务上都优于当前的单模

2022-02-14 17:41:57 1864

原创 UNICORN论文阅读

Crossing the Format Boundary of Text and Boxes: Towards Unified Vision-Language Modeling本篇论文提出了一个通用的视觉语言模型（命名为UNICORN），该模型将文本生成和bbox预测统一在一个模型结构中。针对下述的4个任务，本模型在7个VL benchmarks上面都达到了和sota可比较的结果。（1）visual grounding：给出一张图像和一个物体描述，生成该物体的bbox；（2）grounded imag

2022-02-14 17:39:04 1925

原创 prompt综述论文阅读：Pre-train, Prompt, and Predict: A Systematic Survey of Prompting Methods in Natural La

prompt综述论文阅读：Pre-train, Prompt, and Predict: A Systematic Survey of Prompting Methods in Natural Language Processing

2022-02-14 17:29:51 1651

原创空洞卷积的简单理解

空洞卷积诞生背景：诞生于图像分割任务，图像分割任务一方面通过卷积池化过程进行降采样不断扩大感受野，从而提取图像的主要特征。另一方面，通过上采样将特征图还原成原图大小。降采样的过程中由于卷积和池化操作使得一些小的特征和物体的边缘特征被损失掉了，在上采样时也无法还原，导致图像分割的精细度不够。因此，人们构思一种能够减少信息损失的扩大感受也的方法，诞生了空洞卷积。空洞卷积的计算方法：图a是一般的3*3卷积的感受野；图b是在图a卷积基础上，空洞参数设置为2，3*3卷积的感受野；在原始3*3卷积的基.

2021-03-16 22:19:28 370

原创知识积累

读base64编码的图片：import base64with open(name,'rb') as img_file: img_b64 = base64.b64encode(img_file.read())请求接口：request_det_url = 'http://117.50.***/face/detect'det_params = {img:img_b64,pa...

2020-05-06 23:40:20 121

原创 yolov1/v2/v3学习总结

yolov1的文章建立了yolo整个的模型思路，后面出现的v2/v3/v4都是在v1基础上增加了当时流行的trick进行的修改。yolo属于一阶段的目标检测模型，与rcnn系列相比，牺牲了一定的精度，但是速度更快。yolov1首先介绍yolov1。yolo通过将全图作为模型输入，直接在卷积网络后面加分类层得到目标的位置和类别。这个思路是很简单直接的，会起作用主要在于很多实现细节。1. 如何针对...

2020-05-05 23:52:03 569

原创 torch学习记录

数据流Datasetpytorch实现了一个基类Dataset来帮助构建数据集对象。要想实现自己的数据集类需要基于torch.utils.data.Dataset来完成，并需要在类中实现两个方法，分别是：__getitem__:用于返回一条数据，DATA_CLASS[index]相当于DATA_CLASS.__getitem__(index)__len__:用于返回样本数量，len(DAT...

2020-01-18 15:13:02 192

原创 mmdetection源码阅读

阅读从tools/train.py开始。功能模块Register类位置：utils/registry.py用于注册起到相同作用的（例如coco/voc数据类、模型类、数据处理流程类）类别。具体功能是这样的。Register的__init__加载了两个属性，分别是name,module_dict.Register有两个主要功能函数，分别是register_module,get.假设我...

2020-01-07 21:10:44 587 1

原创图像检索调研

SIFT与CNN的碰撞：万字长文回顾图像检索任务十年探索历程（上篇）SIFT与CNN的碰撞：万字长文回顾图像检索任务十年探索历程（下篇）图像检索公开数据集图像检索：BoW图像检索原理与实战Neural Codes for Image Retrieval 文献阅读论文 | 图像检索经典论文解读《Learning visual similarity for product design wi...

2019-05-17 18:18:10 368

原创 CNN模型可视化

1 引言要说起深度学习中最为常用和广为人知的网络模型，就要数卷积神经网络（Convolutional Neural Networks, CNN）了。CNN目前在语音识别，图像分类，图像分割，自然语言处理等领域都取得了巨大的成功，虽然这些领域的问题并不相同，但CNN可以从大规模数据中提取特征，从而帮助完成图像分类、文本分类等问题。人们常常说深度学习是一个黑盒，是因为我们虽然知道CNN从数据中提取...

2019-05-16 13:56:55 1829

原创翻译：Attention-based Extraction of Structured Information from Street View Imagery

摘要 - 我们提出了一种神经网络模型 - 基于卷积神经网络，回归神经网络和一种新颖的注意机制 - 在具有挑战性的法国街道名称标志（FSNS）数据集上达到84.2％的准确率，明显优于先前的技术水平（Smith'） 16），达到72.46％。此外，我们的新方法比以前的方法更简单，更通用。为了证明我们模型的一般性，我们证明它在从Google街景视图中衍生的更具挑战性的数据集上也表现良好，其目标是从商...

2019-02-16 16:45:20 938

原创卷积神经网络模型解释性调研

前言最近在训练一个鉴黄模型，模型训练出来之后发现模型对粉色背景的图片、人体占图片大面积比例的图片十分敏感，导致这些正常图片容易被误判为黄图，因此，需要进行模型解释性方面的研究，来看看模型究竟是根据什么来进行图片分类的。这里主要会介绍三篇论文，分别是：Visualizing and Understanding Convolutional NetworksLearning Deep Feat...

2018-12-03 00:36:20 821

原创 docker

docker的分层存储因为镜像包含操作系统完整的 root 文件系统，其体积往往是庞大的，因此在 Docker 设计时，就充分利用 Union FS 的技术，将其设计为分层存储的架构。所以严格来说，镜像并非是像一个 ISO 那样的打包文件，镜像只是一个虚拟的概念，其实际体现并非由一个文件组成，而是由一组文件系统组成，或者说，由多层文件系统联合组成。镜像构建时，会一层层构建，前一层是后一层的基础...

2018-11-15 23:44:33 167

原创随机森林、bagging、boosting、adaboost、xgboost

AdaBoost原理原始的AdaBoost算法是在算法开始的时候，为每一个样本赋上一个权重值，初始的时候，大家都是一样重要的。在每一步训练中得到的模型，会使得数据点的估计有对有错，我们就在每一步结束后，增加分错的点的权重，减少分对的点的权重，这样使得某些点如果老是被分错，那么就会被“重点关注”，也就被赋上一个很高的权重。然后等进行了N次迭代（由用户指定），将会得到N个简单的分类器（basic ...

2018-10-16 10:29:54 1724

原创关于rnn的学习

rnn主要是用来解决时间序列信息的问题，当一个信息在不同的t上具有前后关系时，使用rnn可以学习到前后信息之间的联系。比如针对语音识别、文字识别这种具有上下文联系的问题，我们就可以利用rnn来进行学习。rnn如何将上下文的信息联系起来呢？这里可以联系到之前学习到的时间序列分析的思想，一个简单的时间序列模型MA模型：就是根据之前p个时刻的信息来建立线性方程，从而预测t+1时刻的结果。rnn同样借...

2018-10-14 18:40:43 632

原创逻辑回归

LR模型可以被认为就是一个被Sigmoid函数（logistic方程）所归一化后的线性回归模型LR模型常用于二分类问题，假设我们要根据已知特征和label的样本数据构建分类模型，假设我们想要建立一个线性模型，根据这个线性模型的结果进行类别划分，但是这个线性模型的值是位于实数轴上的，因此我们可以通过Sigmoid函数将线性模型的结果映射到[0,1]区间内，这样通过设定阈值，我们就可以根据阈值和映...

2018-09-06 00:32:28 201

原创决策树

决策树知识总结：决策树的根节点到叶节点的每一条路径构建一条规则，路径上内部节点的特征对应着规则的条件，叶节点的类对应着规则的结论。每一个示例都可以被一条路径或一条规则所覆盖。本质上来讲，决策树就是根据训练数据集得到的条件概率模型，这个条件概率分布是定义在对特征空间的一个划分上，特征空间被划分成为了互不相交的区域。决策树是定义在特征空间与类空间上的条件概率分布，决策树实际上是将特征空间划分成...

2018-09-01 18:46:17 164

原创建立简单的卷积神经网络训练分类器，识别九宫格、四宫格等图片

本文想实现一个分类器模型，该模型能够识别出九宫格图片并将图片进行切割，首先我要构造训练集，也就是自己生成一些九宫格图片。其中r=3表示将其切割为3行，c=3表示将其切割为3列。你也可以生成4宫格图片。import cv2import os#image_path=r'C:\Users\hou\Desktop\timg.jpg'def cut(image_path,r=3,c=3):...

2018-09-01 08:09:00 1299 2

原创小目标检测论文阅读

下面记录了一些论文的阅读总结：算法发展历程：传统图像算法：传统图像算法使用hand-made feature，常用方法有SIFT、HOG、图像金字塔等。对于小目标的检测，传统图像算法有人工复杂度高，模型泛化性差等缺点，因此逐渐被深度学习模型取代。深度学习：小目标检测在深度学习卷积神经网络模型中一直是一个难题。早期的目标检测框架（R-CNN、YOLO系列）对于小目标检测的效果都不甚良...

2018-08-26 11:15:33 18428 8

原创 CRNN论文阅读占坑

CRNN：目前常用的字符识别模型但在实践过程中发现该模型无论在训练还是测试上效果都不够优秀说明OCR领域还有许多需要研究的地方 CRNN模型也有许多可改进之处简单来说，模型的结构就是一个卷积网络+双向lstm+全连接层进行分类+ctc解码识别卷积将一个大小为32*100的原图转化为了1*25大小的特征图，然后送进lstm 主要进行了三次训练，分别是基于中文诗句数据集、英...

2018-08-21 22:04:19 1626

原创 docker的简单介绍

Docker镜像简单来说，Docker镜像是一个配置好了所需环境的操作系统，我们在自己的电脑上运行一个docker容器，相当于开启了一个新的操作系统。比如说，如果我们在一台windows系统的电脑上运行一个安装了ubuntu系统的docker镜像，就意味着我们可以进入一台ubuntu系统的电脑进行操作。Docker的好处？环境隔离：Docker镜像就像一个个的集装箱，我们每一个“集装箱...

2018-08-21 21:57:41 3939 1

原创 ctpn、east阅读要点记录

最近要做一些ocr的事情，阅读了文字定位的相关论文，主要是ctpn和east.下面对这两篇论文的药店进行一个记录。CTPNctpn结合了卷积神经网络和循环神经网络。卷机神经网络用于提取图片特征，循环神经网络能够帮助提升对文字的定位和分类的准确度（文中对使用和不适用rnn的结果进行了对比）。下面对网络结构进行一个介绍。首先是通过VGG16的卷积层进行特征提取，这里使用了vgg的五层卷...

2018-07-23 00:27:02 1655

原创多维度卷积、rpn、fpn网络相关知识点记录

有一些记了又忘，忘了又记的东西，在这里留存一下。大概我快老年痴呆了。一多维度卷积对于卷积的计算，思维常常停留在一个维度上，很少去考虑实际上，在卷积的时候是多维度的。多维度的计算也总是迷迷糊糊。这张图可以说的很清楚，当我们要对一个3通道的图像（也就是上图中的蓝色框）进行卷积时，则使用3通道的卷积核（即上图中粉色的方框），对上述27个计算得到的三维数字求和，即得到中间像素的卷积结果。如果我们想要得到...

2018-05-03 14:53:37 1925

开心的火龙果的博客