小毛激励我好好学习-CSDN博客

原创【WIP】T2I-R1: Reinforcing Image Generation with Collaborative Semantic-level and Token-level CoT

DeepSeek 于 DeepSeekMath 中提出了GRPO，其在传统的 PPO 基础上进行了改进，通过去除 value function并以**组相对（group-relative）方式估算优势（advantage）**来提升性能。

2025-05-16 14:48:29 656

原创 ImageReward: Learning and Evaluating Human Preferences for Text-to-Image Generation

由于预训练的分布嘈杂且与实际用户提示的分布存在差异，现有的文生图模型的生成结果还难以做到和人类偏好的对齐。这种固有的不一致性导致了多个问题，包括但不限于：下图展示了部分问题示例图：这些普遍存在的问题仅仅通过改进模型架构和预训练数据难以有效解决。在 NLP 领域，研究人员已采用来自人类反馈的强化学习（Reinforcement Learning from Human Feedback，RLHF）来指导 LLM 趋向于人类的偏好和价值观。该方法依赖于学习一个奖励模型（Reward Model，RM），通过大量专

2025-04-21 21:36:18 893

原创 Flash Diffusion: Accelerating Any Conditional Diffusion Model for Few Steps Image Generation

本文提出了一个高效、快速且通用的蒸馏方案用于加速预训练Diffusion Models的生成过程：Flash Diffusion。Flash Diffusion能够在大幅减少采样步骤数量的同时，仍然保持极高的图像生成质量。Flash Diffusion旨在训练一个学生模型，使其能够在一步内预测出教师模型在多个步骤下对受扰输入样本的去噪结果。此外，Flash Diffusion通过对抗性目标将学生模型的分布引导至真实输入样本的流形上，同时通过分布匹配机制，确保学生模型不会过度偏离已学习的教师分布。下图展示了F

2025-04-14 21:54:33 757

原创 Emu: Enhancing Image Generation Models Using Photogenic Needles in a Haystack

需要注意的是，这里的early stopping是非常重要的，因为在小型数据集上进行长时间的微调会导致显著的过拟合以及一般性的视觉概念的退化。需要注意的是，这些手工挑选的图像有一些低于1024x1024的目标分辨率，本文会训练一个基于Imagen中提出的结构而设计的Pixel Diffusion Upsampler，在必要时，对一些图像进行上采样。除了VAE以外，本文使用了一个训练参数量为2.8B的大型UNet，具体而言，本文提升了每个Stage中堆叠的残差模块的通道数和模块数，以获取更大的模型容量。

2025-04-13 17:00:42 369

原创 InstructPix2Pix: Learning to Follow Image Editing Instructions

SDEdit虽然可以大致保持剩余内容的大致不变以及风格的不变，但其很难做到identity的保持以及当较大变化时对各个物体的隔离，并且它需要对于编辑后图像的完整描述，而不是一个编辑指令。基于以上700条数据，对GPT-3进行了1 epoch的微调，由于GPT-3本身具备丰富的知识和较强的泛化性，微调的模型可以生成具有创造力同时合理的编辑指令和文本描述。在2.1.1小节中，将阐述微调GPT-3用于生成一系列文本的过程：给定一个图像的文本描述，生成一个进行图像编辑的文本指令，以及一个编辑后图像的文本描述。

2025-04-11 12:26:14 947

原创 Prompt-to-prompt image editing with cross attention control

从上图不难看出，简单固定随机种子，使用新的Prompt进行生成，难以维持相关结构的不变，而如果加上对于Attention Maps的固定的话，则可以在一定程度上维持相关结构的不变性。需要注意的是，生成图像的结构主要是在扩散过程的早期时间步中确定。因此，通过限制注入操作时间步的数量，本文可以引导新生成的图像的结构，同时允许必要的几何自由度，以适应新的提示。该任务的主要难点在于如何在保持原始结构的同时还需要处理新提示的内容，本文解决该问题的方案是，将原图像的注意力图注入到修改后的提示的图像生成过程中。

2025-04-10 21:01:16 872

原创 Mamba系列日积月累（一）：状态空间模型SSM的离散化过程推导

本文详细推导了状态空间模型的离散化过程。

2024-01-30 11:39:18 5344 7

原创 Matcher: Segment Anything with One Shot Using All-Purpose Feature Matching 论文精读

本文提出了**Matcher**，一个无需训练的OneShot Segment Anything框架，其结合了一个通用特征提取模型（例如DINOv2）和一个无类别分割模型（例如SAM）。

2023-06-04 19:37:06 1662 7

原创 SharpContour论文精读

本文基于Contour提出了一种新的BoundaryRefine方案，名为SharpContour，其同时具有准确、高效以及通用的优点。SharpContour将一个Coarse Contour作为输入，并**独立地**对各个顶点进行变形，以达到Refine的效果。

2023-06-02 17:43:53 921

原创 OpenMMLab AI实战营第7课 MMSegmentation代码教学

第7课 MMSegmentation代码教学

2023-02-11 21:58:19 237

原创 OpenMMLab AI实战营第6课语义分割与MMSegmentation

OpenMMLab AI实战营第6课语义分割与MMSegmentation

2023-02-10 22:18:36 496

原创 OpenMMLab AI实战营第5课 MMDetection 代码教学

OpenMMLab AI实战营第5课 MMDetection 代码教学

2023-02-08 23:45:29 210

原创 OpenMMLab AI实战营第4课目标检测与MMDetection

OpenMMLab AI实战营第4课目标检测与MMDetection

2023-02-07 00:27:57 292

原创 OpenMMLab AI实战营第3课图像分类代码实战与超算平台介绍

第3课图像分类代码实战与超算平台介绍

2023-02-04 19:10:26 113

原创 OpenMMLab AI实战营第2课：图像分类与基础视觉模型

OpenMMLab AI实战营第2课：图像分类与基础视觉模型

2023-02-03 21:18:10 512

原创 OpenMMLab AI实战营第一期

OpenMMLab AI实战营第一期

2023-02-02 13:52:05 319

原创 OVIS数据集代码解析

OVIS数据集格式整体和COCO类似，但是是以video的形式存储的，对应的解析代码见：https://github.com/qjy981010/cocoapi/blob/main/PythonAPI/pycocotools/ovis.py。由于OVIS仅train提供了标注，因此，这里均以train进行说明。

2022-11-23 21:31:04 1259

原创 FCOS: Fully Convolutional One-Stage Object Detection

FCOS是一个全卷积的单阶段目标检测器，去除了对于Anchor的依赖，将图片上的每个位置都作为sample，大大提高了对于图片的利用率。具体而言，对于某个位置来说，其如果落在某个GT BBox内，则认为其为正样本，并对该GT BBox进行回归（回归目标是该点距离其分配的GT BBox四条边的距离），反之，如果某个点没有落在任何GT BBox内，则认为其为负样本。这样一来，位于GT BBox内的所有样本都会被作为正样本进行训练。同时，FCOS还采用或者提出了一些方案用于解决全卷积网络的问题。...

2022-07-22 12:16:13 826

原创 2012_ImageNet Classification with Deep Convolutional Neural Networks

文章目录1. Title2. Summary3. Problem Statement4. Method(s)4.1 Introduction4.1.1 ImageNet 数据集4.1.2 卷积神经网络（Convolutional Neural Network）4.2 模型结构4.2.1 ReLU 激活函数4.2.2 多 GPU 并行处理4.2.3 局部响应归一化（Local Response Normalization）4.2.4 重叠池化 Overlapping Pooling4.2.5 整体结构4.3

2021-12-01 19:25:10 3176

原创数字图像处理

文章目录一、OpenCV相关1. Opencv中的坐标系与Numpy矩阵坐标系2. 阈值化（1）简单阈值（2）自适应阈值（3）Otsu的二值化二、数字图像处理基础1. 仿射变换2. 滤波（1）均值滤波（2）高斯模糊（3）中值模糊（4）双边滤波3. 形态学操作（1）腐蚀操作（2）膨胀操作（3）开运算（4）闭运算（5）形态学梯度（6）白帽（7）黑帽4. 图像梯度（1）Sobel、Scharr算子（2）Laplacian 算子5. Canny边缘检测（1）高斯滤波（2）梯度计算（3）非极大值抑制（Non-Max

2021-07-09 12:01:43 1444

原创 2019-BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding

文章目录1. Title2. Summary3. Problem Statement4. Method(s)4.1 BERT4.1.1 Model Architecture4.1.2 Input/Output Representations4.2 Pre-Training BERT4.2.1 Masked Language Model (MLM)4.2.2 Next Sentence Prediction (NSP)4.3 Fine-tuning BERT5. Evaluation6. Conclusion

2021-06-09 17:41:40 423

原创 2017-Attention Is All You Need

在经典的序列翻译模型中，大都是基于RNN和CNN来完成。RNN并行化能力差，CNN捕获远距离依赖的代价较高。基于以上考虑，本文提出了一个仅仅基于Attention机制的Transformer结构，其并行化能力高，同时可以很高效地捕获远距离依赖，克服了RNN和CNN的缺点，成为了NLP领域的标准模型。

2021-06-09 13:03:00 530

原创 2021-Twins: Revisiting the Design of Spatial Attention

1. TitleTwins: Revisiting the Design of Spatial Attention in Vision Transformershttps://github.com/Meituan-AutoML/Twins2. Summary写完笔记之后最后填，概述文章的内容，以后查阅笔记的时候先看这一段。3. Problem Statement相较于CNN来说，Transformer由于其能高效地捕获远距离依赖的特性，近期在计算机视觉领域也引领了一波潮流。Transform

2021-05-31 19:01:39 816

原创 2018-Self-Attention with Relative Position Representations

文章目录1. Title2. Summary3. Problem Statement4. Method(s)4.1 Relation-aware Self-Attention4.2 Relative Position Representation4.3 Efficient Implementation5. Evaluation6. Conclusion1. TitleSelf-Attention with Relative Position Representationshttps://github.

2021-05-21 12:03:40 1217

原创 2021-Conditional Positional Encodings for Vision Transformers

1. TitleConditional Positional Encodings for Vision Transformershttps://github.com/Meituan-AutoML/Twins2. Summary本文主要是对Transformer中的Positional Encoding问题进行了探索，之前的PE都存在一定的问题：例如无法适应不同长度的序列、不具有平移不变性等。基于这些问题，本文提出了Conditional Positional Encoding。主要方法是将序列

2021-05-19 16:06:36 2494 3

原创 2021-Flow-based Video Segmentation for Human Head and Shoulders

1. Title论文链接：Flow-based Video Segmentation for Human Head and Shoulders代码以及数据集链接：https://github.com/kuangzijian/Flow-Based-Video-Segmentation2. Summary本文提出的FUNet整体较为简单，主要就是基于PWCNet完成了光流预测，并通过设定阈值的方式，将光流转化为了Motion Feature Mask，该Mask作为辅助信息与原图一起送入一个简单的UNe

2021-05-12 18:29:09 392

原创 2021-Learning Position and Target Consistency for Memory-based Video Object Segmentation

文章目录1. Title2. Summary3. Problem Statement4. Method(s)5. Evaluation6. Conclusion7. Notes1. TitleLearning Position and Target Consistency for Memory-based Video ObjectSegmentation2. Summary写完笔记之后最后填，概述文章的内容，以后查阅笔记的时候先看这一段。3. Problem Statement4. Metho

2021-04-29 16:30:53 1183 2

原创 2021-Swin Transformer Attention机制的详细推导

1. TitleSwin Transformer: Hierarchical Vision Transformer using Shifted Windows2. Summary写完笔记之后最后填，概述文章的内容，以后查阅笔记的时候先看这一段。3. Problem Statement卷积操作由于其权值共享、Locality、滑窗等特性，天然比较适合对图像的各种特征进行建模，因此，也成为了计算机视觉领域的主流架构。但是随着近些年的研究，CNN结构的性能逐渐达到了一个瓶颈，CNN结构的locality

2021-04-26 20:15:34 10978 28

原创 2021-Lite-HRNet: A Lightweight High-Resolution Network

1. TitleLite-HRNet: A Lightweight High-Resolution Network2. Summary写完笔记之后最后填，概述文章的内容，以后查阅笔记的时候先看这一段。3. Problem StatementHuman pose estimation一般比较依赖于高分辨率的特征表示以获得较好的性能，但是目前的网络计算量较大，不能称之为一个高效的网络结构，因此，本文想解决的问题就是如何在计算资源受到约束的情况下部署一个高效的高分辨率模型。通过简单地将ShuffleN

2021-04-24 16:04:31 5408 15

原创 2021-Group Collaborative Learning for Co-Salient Object Detection

目录1. Title2. Summary3. Problem Statement（1）Co-Salient Object Detection问题定义（2）之前CoSOD方法存在问题4. Method(s)（1）Architecture Overview（2）Group Affinity Module（GAM）（3）Group Collaborating Module（GCM）（4）Auxiliary Classification Module（ACM）（5）End

2021-04-21 19:02:47 1056 1

原创 2021-Modular Interactive Video Object Segmentation

1. TitleModular Interactive Video Object Segmentation: Interaction-to-Mask, Propagation and Difference-Aware Fusion2. Summary本文通过将人工交互和mask传播两个子任务解耦，一方面扩展了用户交互形式的多样性，另一方面也降低了模型训练的难度，提升了性能和速度。本文的一个重要观点是：应该直到用户获得了一个满意的mask后，再将该mask送入费时的传播模块中，这个交互过程可以

2021-04-21 18:42:17 1009 2

原创 2021-Semantic Image Matting

1. TitleSemantic Image Matting2. Summary本文相较于之前的Matting方法来说，创造性地引入了20个Matting Classes，或者某种意义上说是20种Matting Pattern，这样一来，对于每个image来说，可以额外引入一些类别信息，辅助Matting的进行。首先，由于一个image中可能存在多个Matting Classes，因此，需要先将未知区域划分为多个Patch，然后基于Patch训练一个分类器，分类结果再产生一个Class Ac

2021-04-21 16:16:17 2155 7

原创 2021-Deep Video Matting via Spatio-Temporal Alignment and Aggregation

Deep Video Matting via Spatio-Temporal Alignment and Aggregation目录Deep Video Matting via Spatio-Temporal Alignment and Aggregation1. Title2. Summary3. Problem Statement（1）Matting问题定义（2）Video Matting难点4. Method(s)（1）DatasetsComposited Da

2021-04-21 14:05:44 1886 2

原创 python中json模块用法记录

JSON（JavaScript Object Notation，JavaScript对象表示法，读作/ˈdʒeɪsən/）是一种由道格拉斯·克罗克福特构想和设计、轻量级的资料交换语言，该语言以易于让人阅读的文字为基础，用来传输由属性值或者序列性的值组成的数据对象。尽管JSON是JavaScript的一个子集，但JSON是独立于语言的文本格式，并且采用了类似于C语言家族的一些习惯。JSON 数据格式与语言无关。即便它源自JavaScript，但目前很多编程语言都支持 JSON 格式数据的生成和解析。JSON

2021-03-11 11:18:31 155

原创 argparse常见用法记录

很多的Python代码中都需要用命令行传参，之前一直都是直接copy别人写好的代码，这次想好好学习记录一下，以备后续查看。# test.pyimport argparsedef parse_args(): parser = argparse.ArgumentParser(description='Training With Pytorch.') parser.add_argument('--world-size', default=-1, type=int, help='numbe

2021-03-08 18:24:32 322 2

原创 YouCompleteMe安装参考博客

YCM安装整体流程https://segmentfault.com/a/1190000025167983YCM依赖问题https://github.com/ycm-core/ycmd/issues/1421#issuecomment-612971010https://stackoverflow.com/questions/65284572/your-c-compiler-does-not-fully-support-c17vim版本问题https://www.codenong.com/cs108

2021-02-24 19:23:38 127

原创 Docker教程

基于哔哩哔哩视频——2020 Docker最新超详细版教程通俗易懂大佬总结的笔记，这篇博客记录一下。

2020-10-21 17:54:12 460 1

原创 Dynamic ReLU论文简析

文章目录一、前言二、拟解决的关键问题三、Dynamic ReLU1. 激活函数2. Dynamic ReLU3. Dynamic ReLU的实现四、总结参考文献一、前言论文地址：https://arxiv.org/abs/2003.10027这篇博客主要是对Dynamic ReLU这篇论文进行简单记录与解析。二、拟解决的关键问题在轻量级网络例如MobileNet、ShuffleNet、ShiftNet中，由于网络规模的限制，导致模型的表征能力不足。因此，为了进一步提高轻量级网络的表征能力，需要在不

2020-10-12 20:56:23 1014

原创 LeetCode-Tree篇总结

文章目录一、前言二、基础1. 树节点的定义。2. 深度优先遍历的递归写法3. 深度优先遍历的迭代写法4. 广度优先遍历的迭代写法三、深度优先遍历1. 树的深度问题2. 树的路径或叶子节点问题3. 二叉搜索树或中序遍历问题四、广度优先遍历问题一、前言作为正式好好刷题的开始，考虑到树相关的题目一般而言较为模板化，递归的代码一般也比较简洁，而且个人也比较擅长这个方面，因此，决定先从这个部分开始。这篇博客主要是记录一些思路，并不会讲解太多题目。二、基础个人认为，树的大部分题目其实都可以归结为一个遍历问题，树

2020-10-10 11:44:54 689

原创 Pytorch中的NLLLoss代码解释

在分类以及语义分割任务中，CrossEntropy是十分常用的一个损失函数，pytorch也对其进行了实现用于直接使用。但本人在阅读其源码时，发现nn,CrossEropyLoss并不是直接按照交叉熵公式：Loss(p,y)=∑i=1nyilog(pi)Loss(p, y)=\sum_{i=1}^{n}y_ilog(p_i)Loss(p,y)=∑i=1nyilog(pi)计算而得，实际上其是融合了多个计算而成：softmax计算+log计算+nll_loss计算。其具体原理，推荐一篇讲解得十分详细的

2020-09-07 10:25:07 2321 2

空空如也

空空如也