业余狙击手19-CSDN博客

原创系列文章汇总

目录目标检测算法源码解析：MaskRCNN源码解析：MaskRCNN源码解析1：整体结构概述MaskRCNN源码解析2：特征图与anchors生成MaskRCNN源码解析3：RPN、ProposalLayer、DetectionTargetLayerMaskRCNN源码解析4-0：ROI Pooling 与 ROI Align理论MaskRCNN源码解析4：头网络(Ne...

2020-06-16 20:38:50 34977 4

原创个人微信公众号及个人GitHub信息

写技术博客，主要是作为自己技术积累的一个笔记，不求与人相比，但求不断超越自己！加油！CSDN个人专栏信息现在不能用了，但是有些信息需要连接一下，方便使用，所以在专门放一篇文章吧。1，点击访问个人GitHub2，点击访问个人知乎3，点击访问个人CSDN博客主页4，点击访问个人微信公众号欢迎各位扫码关注我的微信公众号：有好多小伙伴在公众号给我留言...

2019-06-20 11:16:20 35267 2

1、深度学习框架图： 2、神经网络要解决的问题2.1、基于网络功能函数的定义（网络模型的选择，激励函数的选择，优化方法的选择）–&amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;gt;网络模型好坏的评估（损失函数的定义）–&amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;gt;选出一

2018-09-14 15:36:14 37352 1

原创从BERT到BEIT: BERT Pre-Training of Image Transformers

我们提出了一种适用于视觉Transformer的自监督预训练框架，在图像分类、语义分割等下游任务上实现了优异的微调性能。实验表明，我们提出的方法对推动类BERT式预训练（即基于掩码输入的自动编码）在图像Transformer中的有效应用至关重要。此外，我们揭示了BEIT无需人工标注数据即可自动学习语义区域知识的特性。未来，我们计划从数据规模和模型规模两方面扩展BEIT的预训练，并探索通过统一目标和文本-图像共享架构开展多模态预训练。

2025-08-23 21:30:00 1141

原创多模态大模型：视觉掩码自编码器-MAE

本文提出的方法基于训练数据的统计规律预测内容，因此会反映数据中的偏差（包括具有负面社会影响的偏差），模型可能生成不存在的内容。在基于本工作开展图像生成相关研究时，这些问题需要进一步探讨和考量。

2025-08-23 21:30:00 1560

原创多模态大模型：VILT(Vision-and-Language Transformer)

本文提出了一种极简的视觉-语言预训练架构——视觉-语言Transformer（ViLT）。ViLT能够与依赖复杂卷积视觉嵌入网络（如Faster R-CNN和ResNets）的模型竞争。我们呼吁未来视觉-语言预训练研究更关注Transformer模块内的多模态交互设计，而非陷入仅提升单模态嵌入能力的“军备竞赛”。

2025-08-23 21:30:00 1617

原创多模态大模型-CLIP

我们探究了能否将自然语言处理（NLP）中与任务无关的网络规模预训练的成功经验迁移至其他领域。研究发现，采用该模式后，计算机视觉领域也出现了类似的现象，同时我们还探讨了这一研究方向所带来的社会影响。为优化训练目标，CLIP 模型在预训练过程中学习执行多种任务，而后可通过自然语言提示利用这种任务学习能力，实现对众多现有数据集的零样本迁移。在足够的规模下，尽管该方法仍有很大的改进空间，但其性能已可与特定任务的监督模型相媲美。

2025-08-23 21:30:00 3563 1

原创多模态大模型-BLIP

我们提出了BLIP，这是一种新的视觉-语言预训练（VLP）框架，在广泛的下游视觉-语言任务上具有最先进的性能，包括基于理解和基于生成的任务。BLIP使用从大规模噪声图像-文本对中引导构建的数据集，通过注入多样化的合成字幕并去除噪声字幕，对编码器-解码器混合多模态模型进行预训练。我们发布了引导构建的数据集，以促进未来的视觉-语言研究。

2025-08-23 21:30:00 1163

原创多模态大模型：视觉模型与LLM的结合之路三：InternVL-v1.5、Qwen2VL

相较于之前的工作，本文的主要贡献在于将更精细的动态图像预处理方式和统一的多模态位置编码引入了多模态大模型。Qwen2VL仅要求图像的宽高能被28整除，该方式能处理更多样的长宽比。且能根据图像分辨率分配img_emb的token数量，资源消耗更加合理。统一的多模态位置emb(M-Rope)统一了图像，视频和文本。对比实验证明了该编码方式能提升模型效果。

2025-08-22 21:30:00 1273

原创多模态大模型：视觉模型与LLM的结合之路一：Blip2、LLaVA

模型结构上：LLaVA仅用简单的线性链接层就完成了视觉模型与LLM的结合，结合方法简单但有效。训练数据上：LLaVA给出了一种使用ChatGPT造训练数据的方法。虽然类似的方法在语言大模型的训练中较为常见，但该文是在多模态大模型上的首次尝试。训练方法上：作者先采用了大量的易学数据训练少量参数让模型学会认图，再用少量难学的数据训练大量参数让模型学会基于图像的多轮对话和逻辑推理能力。

2025-08-21 21:30:00 2031

原创多模态大模型：视觉模型与LLM的结合之路二：MiniGPT-4、QWen-VL

QWenVL提出来能力增强的训练阶段，并使用了B级别的对齐训练数据，M级别的能力增强数据和K级别的指令跟随数据，训练多模态大模型。能力增强训练可能较为耗费资源但能极大程度提升模型效果。后续自己构建大模型时可以考虑构建和下游任务接近的训练任务用于能力增强训练。

2025-08-21 21:30:00 1218

原创识别一切-RAM-Recognize Anything（论文翻译）

我们提出了用于图像标注的强大基础模型 —— 识别万物模型（RAM），它开创了该领域的一种全新范式。RAM展现出了以高准确率识别任意类别的零次学习能力，超越了全监督模型以及诸如 CLIP 和 BLIP 等现有通用型方法的性能表现。RAM代表了计算机视觉领域大规模模型的一项重大进步，具备增强任何视觉任务或数据集识别能力的潜力。

2025-08-20 21:30:00 862

原创 TAP：对任何事物进行分割、识别和描述

TAP旨在通过提示功能，从分割任意物体迈向感知任意事物。我们希望这项工作能够启发学界开发出更紧凑、更有意义的视觉基础模型。

2025-08-20 21:30:00 942

原创 SEEM-Segment Everything Everywhere All at Once（论文翻译）

Segment Everything Everywhere All at Once（SEEM）[NeurIPS 2023] 是一个创新的开源项目，旨在实现对图像和视频中的对象进行高效且精确的分割。该项目由UX-Decoder团队开发，支持多种提示类型，包括点、标记、框、涂鸦、图像片段、文本和音频等，用户可以通过这些提示轻松地对图像进行分割，并且可以组合使用多种提示类型‌。

2025-08-19 21:30:00 864

原创首个目标检测大模型(识别万物)：DINO-X（论文翻译）

DINO-X，2024年11月20号IDEA Research 开发的具有最佳开放世界物体检测性能的统一的以物体为中心的视觉模型。为了使长尾物体检测变得简单，DINO-X 扩展了其输入选项以支持文本提示、视觉提示和自定义提示。

2025-08-18 21:30:00 2000

原创目标检测算法-NanoDet

NanoDet凭借其超轻量级、高速的特点，为移动端目标检测开辟了新的可能。通过PyTorch版本的实践，开发者可以轻松地将NanoDet集成到自己的项目中。未来，随着深度学习技术的不断发展，我们期待更多像NanoDet这样优秀的轻量级模型出现，以满足更多场景下的实时目标检测需求。

2025-01-06 15:22:25 1505

原创目标检测算法-Picodet

在目标检测中如何实现更好的。

2025-01-06 15:20:56 1637

原创 TAP：对任何事物进行分割、识别和描述

TAP:Tokenize Anything via Prompting，发表于2023年。我们提出了一种统一的、可提示的模型，能够同时对任何事物进行分割、识别和描述。与 SAM 不同，我们旨在通过视觉提示构建一个通用的多功能区域表示。为实现这一目标，我们使用大量的分割掩码（如 SA-1B 掩码）以及来自具有 50 亿参数的预训练 CLIP 模型的语义先验来训练一个可泛化的模型。具体来说，我们通过给每个掩码添加一个语义标记来构建一个可提示的图像解码器。语义标记负责在预定义的概念空间中学习语义先验。通过对掩码

2025-01-06 15:01:02 1280

原创识别一切-RAM-Recognize Anything（论文翻译）

在训练阶段，识别头学习预测从文本中解析出来的标签，而在推理阶段，它充当图像到标签的桥梁，通过预测标签为图像字幕提供更明确的语义指导。400 万图像的设置包含两个人工标注的数据集，即 COCO [16]（含 11.3 万张图像、55.7 万个字幕）和视觉基因组 [13]（含 10.1 万张图像、82.2 万个字幕），以及两个大规模的基于网络的数据集，即概念字幕 [6]（含 300 万张图像、300 万个字幕）和 SBU 字幕 [21]（含 84.9 万张图像、84.9 万个字幕）。

2025-01-06 14:57:48 1479

原创 SEEM-Segment Everything Everywhere All at Once（论文翻译）

与之前诸如 SimpleClick 等类别无关的交互式分割工作以及同期的 SAM 工作不同，我们的模型能够以零样本方式为各种提示组合的掩码生成语义标签，因为我们的视觉提示特征在联合视觉 - 语义空间中与文本特征对齐。值得注意的是，与现有的交互式模型不同，SEEM 是首个不仅支持经典分割任务，还支持包括文本、点、涂鸦、框和图像在内的多种用户输入类型的界面，如表 2 和表 5 所示，它具备很强的组合能力。是从目标图像（即）或参考图像中提取的特征图， {点，框，涂鸦，多边形} 是用户指定的采样位置。

2025-01-06 14:47:49 1715

原创关键点检测算法-TinyPose

未来，随着技术的不断发展和优化，PP-TinyPose将进一步提升检测精度和稳定性，为AI虚拟健身教练的普及和发展提供更加强有力的支持。例如，某智能健身APP利用PP-TinyPose技术，实现了用户动作的实时检测与反馈，为用户提供了个性化的训练指导和建议。实时动作检测与计数：通过检测人体关键点的位置变化，PP-TinyPose能够实时识别用户的健身动作，并进行计数。随着人工智能技术的飞速发展，AI虚拟健身教练应运而生，其中PP-TinyPose作为智能健身动作识别的关键技术，正逐步改变着人们的健身体验。

2025-01-06 14:25:24 1865

原创关键点检测算法-RTMPose

近年来，2D 姿态估计的研究在公开数据集上取得了出色的成绩，但是它在工业界的应用仍然。为了让前沿姿态估计算法在工业界落地，我们通过实验研究了多人姿态估计算法的五个方面：范式、骨干网络、定位算法、训练策略和部署推理，基于 MMPose 提出了一个高性能的实时多人姿态估计框架 RTMPose。我们的 RTMPose-m 模型在 COCO 上取得 75.8％AP，在 Intel i7-11700 CPU 上达到 90+FPS，在 NVIDIA GTX 1660 Ti GPU 上达到 430+FPS。

2025-01-06 14:20:06 2599 2

原创关键点检测算法-OpenPose

我们提出了一个方法，能够在一张图中高效的识别出多人的2D姿态。该方法运用了非参数表示（non-parametric representation），我们称之为部分亲和域（PAFs：Part Affinitu Fields）,用它来学习怎样将身体部分和个体联系起来。这个结构编码了全局信息，并允许一个贪婪的从底向上的解析步骤，这在实现实时性能时，有着高度的精准且无须考虑图像中人的数量。这个结构被设计成相同顺序预测过程的两个分支，来联合学习部分位置（关节点）以及它们之间的关联（相邻的关节点的连接关系）。

2025-01-06 14:15:24 4714

原创 MMPose关键点检测实践（三）MMDeploy模型部署

本文参考：同济子豪兄创建conda虚拟环境安装mmpose安装最新版本mmpose会有问题转换代码转换结果转换代码转换过程转换结果。

2025-01-06 11:52:05 912

原创 MMPose关键点检测实践（二）训练目标检测和关键点检测模型

上一篇文章我们利用MMPose进行了关键点检测实践，本篇文章我们从训练模型开始，进一步进行关键点检测实践。由于我们实践的是自上到下的关键点检测模型，所以需要训练一个目标检测模型。先用目标检测模型得到相关区域的框，然后将相应的框送给关键点检测模型。因此我们需要先安装一下mmdetection。本文主要参考：同济子豪兄mmdetection安装参照，主要需要注意的是pytorch的版本要和对应的硬件匹配，不要会报各种问题。我的安装版本（A30， CUDA Version: 11.4 ）验证安装结果。

2025-01-06 11:36:20 1761

原创 MMPose关键点检测实践（一）

这一步，需根据自己的硬件环境，按照以下文档安装即可，最大的变数就是不同的硬件，对应的软件版本不一样，这个因人而异，没有统一版本。代码的主要思路是加载目标检测模型，获取图片中人的检测框，然后调用关键点检测模型，针对每个人的检测框，将检测框内的人体关键点检测出来。hrnet姿态估计模型配置文件：（路径为mmpose对应的路径。检测模型配置文件：（路径为mmpose对应的路径）配置文件：（路径为mmpose对应的路径）配置文件：（路径为mmpose对应的路径）安装完环境后，下载mmpose代码到本地。

2025-01-06 11:20:17 695 1

原创关键点检测算法-HRNet

本篇文章首发于微信公众号：人工智能与图像处理关键点检测算法-HRNet此文较长！此文较长！此文较长！High-Resoultion Net(HRNet)由微软亚洲研究院和中科大提出，发表在CVPR2019。文章全称：Deep High-Resolution Representation Learning for Human Pose Estimation。HRNet属于--2D姿态估计-->单人检测-->基于热力图类型的关键点检测。模型的主要特点是在整个过程中特征图（Feature Map）始终保持高分

2025-01-06 10:33:31 9214

空空如也

空空如也