我是家家-CSDN博客

原创为什么开始写csdn博客？

还记得最开始注册csdn账号～资源积分不够，不

2014-05-25 13:16:21 1625 2

原创 Paper reading: segment anything in high quality NIPS2023

通过利用和固定SAM的掩码decoder，一个新的可学习的HQ-Output Token （1-256）和SAM原有的SAM output Token（4*256）+prompt token (N*256), 三者联合在一起，输入到mask decoder中，更新HQ-Output Token。最近发展起来的SAM模型，表示分割模型的一个大的跃进，尤其是在零样本的能力和灵活提升方面。设计学习一个高质量的输出token，插入到SAM的掩码解码器中，来预测高质量的掩码。我们提出一个HA-SAM。

2023-11-01 08:30:15 453

原创 Paper reading: CoDet co-occurrent guided region-word alignment for open-vocabulary object detection

通过把具有相同概念的图像聚集在一起，具有相同概念的目标具有非常高的共生能力。CoDet能够利用视觉相似性，来发现共生目标，并与相同的概念进行对齐。提出一个CoDet方法，通过把区域-文字对齐问题重新组织为一个共生的目标发现问题，以克服对已经对齐好的视觉-语言空间的依赖性。

2023-10-31 09:19:46 176

原创 Paper reading: Inject Semantic Concepts into Image Tagging for Open-Set Recognition

通过注入语义概念到图像标记（inject semantic concepts into image tagging），提出识别一切+的模型(Recognize anything plus model， RAM++), 一个具有强的开集识别能力的图像识别模型。RAM++模型能够利用图像-标签-文本三者之间的关系，整合image-text alignment 和 image-tagging 到一个统一的交互框架里。

2023-10-30 15:16:00 163

原创 latex 标注comment的颜色字体

\usepackage[pagebackref=true,breaklinks=true,letterpaper=true,colorlinks,bookmarks=false]{hyperref}\newcommand{\xu}[1]{{\color{blue}#1}} %\bf #1

2023-08-12 17:27:40 206

原创 Paper reading: Joint Representation Learning for Text and 3D Point Cloud

在预训练阶段，基于RGB-D数据简历图像和点云之间的对应关系，利用对比学习来对齐图像和段云表示。和CLIP模型中已对齐的图像-文本特征图，可以把点云特征和文本嵌入做一个隐形的对齐。提出一个文本查询模块，通过查询文本嵌入和点云特征，把语言信息整合到3D表示学习中。在fine-tuning阶段，利用没有二维图像的标签集的语言指导，模型学习该模型学习特定于任务的 3D 表示。但是由于3D-文本对获取的困难性和3D数据结构的不规则性，3D点云-文本的联合表示学习依然没有得到很好地研究。

2023-06-09 15:42:54 111

原创 paper reading: Tip-Adapter: Training-free Adaption of CLIP for few-shot classification ECCV2022

提出利用CLIP，不用训练的自适应方法，进行小样本分类。它不仅继承了零样本CLIP的不用训练优势，而且性能与那些需要训练的方法相当。Tip-Adapter 方法是利用小样本训练集中的键值缓存模型构建适配器，并通过特征检索更新 CLIP 中编码的先验知识。在KQV机制下的cache模型，并整合CLIP预训练的知识信息，进而完成小样本分类任务。对于小样本数据集，利用CLIP提取视觉特征表示，利用one-hot编码真值标签。多模态cache模块，能够暂存CLIP编码出来的视觉和文本知识。

2023-06-07 17:28:34 194

原创 Paper reading: boosting text-to-image diffusion models with fine-grained semantic rewards

1. Caption reward: 从全局语义的角度来看，Caption reward是通过 BLIP-2 模型生成相应的详细字幕，描述合成图像中的所有重要内容，然后通过测量生成的字幕与给定提示之间的相似度来计算奖励分数。2. SAM reward: 从局部语义的角度来看，SAM 奖励将生成的图像分割成带有类别标签的局部部分，并通过大型语言模型（即 Vicuna-7B）测量每个类别出现在提示场景中的可能性来对分割的部分进行评分。

2023-06-07 15:15:25 88

原创 Paper reading：Detector Guidance for Multi-Object text-toimage generation

利用YOLO模型作为潜在的目标检测器，并在COCO数据集上进行训练。潜在目标检测模型可以根据对应的CAMs，推理学习出目标框和每个目标的置信分数。然后利用预测的目标框和真值目标框来计算损失函数，并更新潜在的目标检测模型。现有的一些方法存在一些问题：噪音图像会导致不同的对象看起来相似，交叉注意块在像素级别注入信息，导致全局对象理解的泄漏并导致对象混合。因此，引入检测引导方法，整合一个潜在的目标检测模块，在生成过程中来分离不同的目标对象。然后基于对应的CAMs，产生每个目标的目标框，并分配不同的目标。

2023-06-07 14:38:29 90

原创 Paper reading: CLIP-guided Prototype Modulating for Few-shot Action Recognition

在数据稀少（小样本）的情况下，目标是转移大模型CLIP中的多模态知识信息来减轻不准确的原型估计。因此，我们呈现一个CLIP 引导的原型建模框架，包含两个关键的组件：一个视频-文本对比目标、一个原型模块。其中视频-文本对比模块是通过对比视频和对应的类文本描述，连接CLIP和小样本视频任务间的任务差异。原型模块是利用利用来自 CLIP 的可转移文本概念，通过时间转换器自适应地改进视觉原型。在那些获取的视频帧特征和文本特征上，利用一个视频-文本对比目标函数，使得CLIP适应到小样本视频任务中。

2023-06-07 09:32:55 206

原创 BLIP: Bootstrapping Language-Image Pre-training for unified understanding and generation

BLIP在很多视觉-语言任务上取得了很好地性能，例如：text-image retrieval, image captioning, visual quation answering, visual reasoning and visual dialog.提出BLIP，一种新的Vision-language pre-training (VLP)框架，可以灵活地转换到视觉语言理解和生成任务。BLIP通过引导字幕有效地利用有噪声的网络数据，其中字幕生成器生成合成字幕，过滤器去除有噪声的字幕。

2023-06-06 16:38:43 71

原创 Paper reading: Segment Everything Everywhere All at Once

受启发于大语言模型中基于提示的通用接口，提出SEEM，一个可提示的、交互的模型，用来在图像中一次性地分割任何地方的任何物体。，为不同类型的提示引入了多功能提示引擎，包括点、框、涂鸦、掩码、文本和其他图像的引用区域；SEEM和SAM分割大模型之间的最主要的区别，在于是有语义感知的，能够适应于开放环境中。：通过结合可学习记忆的提示信息，通过掩码引导的交叉注意力来保留对话历史信息；：通过学习视觉和文本提示的联合视觉语义空间来组成动态查询进行推理的组合性。

2023-06-06 14:44:39 138 1

原创 Paper reading: Multimodal Parameter-Efficient Few-Shot Class Incremental Learning

小样本增量学习

2023-06-06 11:10:08 44

原创 Paper reading: Conditional Diffusion for Interactive Segmentation ICCV2021

把原始图像、click的高斯maps，和预测的逻辑值，作为输入，进而促进信息从点位置到邻近像素的传播和预测。定义起始的click区域，和diffusion目标区域，作为约束信息，交互进行diffusion。

2023-06-02 10:57:43 158

原创 Paper reading:Few-Shot Class Incremental Learning Leveraging Self-Supervised. CVPR2022workshop

本文研究利用自我监督学习的进步来纠正过度适应和灾难性遗忘，进而提高性能。首先探索在监督和自监督模型中学习到的特征串联基础上，训练轻量级特征融合+分类器。利用基类数据中的样本来学习监督模型，其中基类中大量的数据可以得到利用。利用大量未标注数据进行自监督模型的学习。利用融合后的特征来学习分类器，会取得比较好的性能。此外，文中还利用一个高斯生成器来减少小样本类增量学习过程中的灾难性遗忘问题...

2022-06-26 11:55:30 645 1

原创 Paper reading: ISDNet: Integrating Shallow and Deep Networks CVPR2022

本文提出一个高分辨率图像分割框架（Integrating Shallow and Deep Networks， ISDNet），他能很好地整合浅层和深层网络，并显著的提高推理速度并有一个精准的分割结果。为了更好地利用浅层特征和深层特征之间的关联性，提出一个关系感知特征融合模块（Relational-Aware feature Fusion module），以保证网络分割的性能和鲁棒性。...

2022-06-26 09:53:28 1218

原创 Paper reading:高分辨率图像分割：From Contexts to Locality: Ultra-high Resolution Image Segmentation ICCV2021

本文依然采用高分辨率图像分割的路线，其中高分辨率大尺度图像可以分割局部图像块，然后再对局部的图像块的分割结果进行融合。具体来说，本文提出一个位置感知上下文关联的分割模型来处理那些局部图像块，可以利用局部图像块之间的关联性及其上下文关系来处理那些变化大的语义区域。除此之外，我们提出一个上下文语义细化的网络，能够利用上下文语义信息来连接那些局部分割结果，以减少边界伪影和细化掩模轮廓。...

2022-06-24 16:42:22 850 1

原创 Paper reading：高分辨率图像分割 Collaborative Global-Local Networks for Memory-Efficient Segmentation CVPR19

协作式全局-局部网络(Collaborative global-local network)，以一个高效的方式保留全局和局部信息。协作式全局-局部网络有两个分支：全局分支和局部分支，分别处理降采样后的全局图像和剪切后的局部图像块作为输入信息。为了完成分割任务，网络会融合两个分支的特征图，以更好地获取高分辨率的细节结构和上下文依赖关系。......

2022-06-24 10:51:34 393

转载 Attention is all your need

NIPS2017的paper，但是文中介绍比较简单这里有详细解释：http://jalammar.github.io/illustrated-transformer/

2020-07-09 10:29:04 334

原创 Cycle GAN: Unpaired Image-to-Image Translation using Cycle-Consistent Adversarial Networks

1. Adversarial loss: 2. Cycle consistency loss 3. Full objective function: Cycle GAN, 不仅让生成的图像和真实图像对抗学习，同时要求生成的图像能够decode出来原图像，这样不至于生成的图像太失真。文中有个例子，很好理解。就是不要要求中文翻译为英文，尽可能准确。还要求翻译...

2018-12-20 09:41:26 546

原创 A survey of meta learning

Paper reading: a perspective view and survey of meta-learningGoal: build a self-adaptive learning algorithm.Idea: improve the learning bias dynamically through experience by the continuous accumul...

2018-12-04 17:39:15 862

原创解读：FlowNet 2.0 evolution of optical flow estimation with deep networks

贡献点:1. focus on the training data and show that the schedule of presenting data during training is very important. 2. develop a stacked architecture that includes warping of the second image with

2017-11-30 22:19:51 949

原创解读： FlowNet learning optical flow with convolutional networks

贡献点： Construct CNNs which are capable of solving the optical flow estimation problem as a supervised learning task. Train CNN end-to-end to learn predicting the optical flow f

2017-11-30 22:10:02 1023

原创解读flow-guided feature aggregation for video object detection

文章主要贡献点：Flow-guided feature aggregation, an end-to-end framework for video object detection.Improve the per-frame features by aggregation of nearby features along the motion path, and thus impro

2017-11-30 20:03:49 1837

转载 Matlab R2014b配置vlfeat0.9.20

网址：http://blog.csdn.net/u011718701/article/details/51452011

2017-05-03 16:55:16 654

原创投稿期刊和会议，截止日期查询网址：Special issue top conference

http://www.guide2research.com/special-issues/

2017-02-15 10:45:08 10962

转载 caffe model for the face task

VGG: http://www.robots.ox.ac.uk/~vgg/software/vgg_face/CMU-OpenFace: http://cmusatyalab.github.io/openface/

2016-03-21 17:27:45 1738

转载 How to set $LD_LIBRARY_PATH in Ubuntu?

http://serverfault.com/questions/201709/how-to-set-ld-library-path-in-ubuntu

2016-03-14 17:23:42 1108

转载 Basic build issue regarding libs, pkg-config and opencv

http://stackoverflow.com/questions/10526124/basic-build-issue-regarding-libs-pkg-config-and-opencv

2016-03-14 17:20:55 974

转载 Example rebuttal for "YOLO: Real-Time Object Detection"

From :http://pjreddie.com/publications/yolo/

2016-03-11 18:35:08 1715

转载 Intersection-over-union between two detections

1) You have two overlapping bounding boxes. You compute the intersection of the boxes, which is the area of the overlap. You compute the union of the overlapping boxes, which is the sum of the areas o

2016-03-11 09:56:27 2495

转载 Fast RCNN 训练自己的数据集（3训练和检测）

转载自楼燚(yì)航的blog，http://www.cnblogs.com/louyihang-loves-baiyan/https://github.com/YihangLou/fast-rcnn-train-another-dataset 这是我在github上修改的几个文件的链接，求星星啊，求星星啊（原谅我那么不要脸~~）在之前两篇文章中我介绍了怎么编译Fast RCNN，和

2016-01-08 15:24:09 14478 2

转载 Ubuntu14.04 安装Caffe（仅CPU）

转自：http://blog.csdn.net/u011762313/article/details/47262549#配置pycaffe前言GPU版本正文安装依赖库一安装BLAS安装python安装matlab安装opencv安装依赖库二下载Caffe如果安装的是opencv30编译Caffe配置pycaffe配置matcaffe前言：按照Ca

2016-01-08 14:40:26 7499 2

转载 Putty: _tkinter.TclError: no display name and no diplay environment variable

2016-01-08 14:27:59 2534

转载 Installing OpenCV for Python on Ubuntu, getting ImportError: No module named cv2.cv

参考paper：http://stackoverflow.com/questions/25215102/installing-opencv-for-python-on-ubuntu-getting-importerror-no-module-named-cv2错误：解决办法：

2016-01-08 11:16:53 3743 1

转载大脑视觉处理~~

1. 大脑对视觉信息的处理是分层级的，低级脑区可能处理对边度，边缘什么的，高级脑区处理更抽象的比如人脸啊，房子啊，物体的运动之类的。信息被一层一层抽提出来往上传递进行处理。2. 大脑对视觉信息的处理也是并行的，不同的脑区提取出不同的信息干不同的活，有的负责处理这个物体是什么，有的负责处理这个物体是怎么动的。3. 脑区之间存在着广泛的联系，同时高级皮层对低级皮层也有很多的反馈投射。

2015-12-27 16:44:49 5805

转载 Matlab实现灰度图像的水平和垂直投影

clear allclcclose all%% 读入图像数据I=imread('2.bmp');% I=rgb2gray(I);[m n]=size(I);% 求垂直投影for y=1:n S(y)=sum(I(1:m,y));endy=1:n;figuresubplot(211),plot(y,S(y));title('垂直投影')

2015-12-15 19:17:52 17986 1