Donny0v0-CSDN博客

原创【论文阅读】Recognize Anything: A Strong Image Tagging Model

提出了 Recognize Anything Model（RAM），一个强的基础模型用于image tagging，表现出在各种常见类别上的高精度的零样本泛化能力RAM 提出了新的image tagging 范式，利用图像文本对训练，而不是手工标注数据通过自动文本语义解析（automatic text semantic parsing)图像文本对的文本中提取图像的 tags初步模型使用自动标注训练。训练策略使用 image caption 和 image tagging 两个任务真值分别监督。

2024-05-08 18:23:00 1928

原创【论文阅读】Depth Anything: Unleashing the Power of Large-Scale Unlabeled Data

这篇论文提出了一个使用的方案，用于鲁棒的单目深度估计，Depth Anything论文的模型结构没有创新，主要贡献在于1. 探索了简单有效的数据扩展方式（如何有效利用大量的无标签数据2. 从预训练模型继承语义（使用冻结的 DINOv2 进行特征约束论文的方法在各中深度估计数据集上都取得了SOTA

2024-04-17 23:06:52 2064

原创【论文阅读】Pointrend: Image segmentation as rendering

用于高效的、高质量的图像分割像素标记任务面临的过采样和欠采样问题，模拟经典的用于有效渲染的计算机视觉方法，从新的视角去看待图像分割问题（点渲染）论文提出了 PointRend（Point-based Rendering 基于点渲染）的神经网络模块：这个模块基于迭代细分算法(an iterative subdivision algorithm)，自适应的选择位置，然后在这些位置上进行基于点的分割预测。这个模块是通用的，能够集成在实例和语义分割任务效果输出更加清晰的边缘。

2023-07-20 21:30:14 174

原创【深度学习环境配置】Pytorch 安装

nvidia-smi 查看显卡驱动、CUDA 对照表、Pytorch 安装与测试

2023-07-14 10:58:52 255

原创【OpenMMLab】MMagic 代码教程

第五课:第十课。

2023-06-15 23:22:47 310

原创【OpenMMLab】底层视觉与MMEditing

图像超分辨率:根据从低分辨率图像重构高分辨率图像在低像素的图像中，信息是非常少的，补足其中缺失的高频信息是非常困难的提高图像的分辨率高分图像符合低分图像的内容恢复图像的细节、产生真实的内容；双线性或双立方插值不能恢复图像的高频细节图像超分辨率的应用：经典游戏高清重制、动画高清重置、照片修复、节约传输高清图像的带宽、民生领域。

2023-06-15 22:10:35 157

原创【OpenMMLab】MMSegmentation 代码

第一课：【OpenMMLab】OpenMMLab概述第二课：【OpenMMLab】人体姿态估计、关键点检测与MMPose第三课：【openMMLab】MMPose 代码教程第四课：【OpenMMLab】深度学习预训练与 MMPreTrain第五课: 【OpenMMLab】MMPretrain 代码教程第六课：【OpenMMLab】目标检测与MMDetection第七课：【OpenMMLab】MMDetection 代码第八课：【OpenMMLab】语义分割与MMSegmentationMMSe

2023-06-14 21:41:23 156

原创【OpenMMLab】语义分割与MMSegmentation

任务：按照图像中每个像素的语义类别，将图像分割成不同的区域等价于：对图像中的每个像素进行分类。

2023-06-12 21:13:48 219

原创【OpenMMLab】MMDetection 代码

目标检测任务即:给定图片，网络预测出所关注的所有物体边界框和类别。其是一个典型的多任务学习，既包括物体边界框学习还包括类别学习。MMDetection 是被广泛使用的测工具箱，包括了目标检测、实例分割、全景分割等多个通用检测方向，并支持了 75+ 个主流和前沿模型，为用户提供超过 440+ 个预训练模型，在学术研究和工业落地中拥有广泛应用。模块化设计MMDetection 将检测框架解成不同的模块组件，通过组合不同的模块组件，用户可以便捷地构建自定义的检测模型支持多种检测任务。

2023-06-09 22:38:09 61

原创【OpenMMLab】目标检测与MMDetection

给定一张图像，用矩形框框出所有感兴趣的物体，同时给出每个矩形框中物体的类别。如下图，检测到图像中央的椅子并给出类别。

2023-06-08 23:17:43 77

原创【OpenMMLab】MMPretrain 代码教程

MMPretrain 是一个全新升级的预训练开源算法框架，旨在提供各种强大的预训练主干网络，并支持不同的预训练策略。MMPretrain 源自 MMClassification 和MMSelfSup，并开发了许多新功能。预训练阶段对于视觉识别至关重要，凭借丰富而强大的预训练模型，能够用于改进各种下游视觉任务。代码库旨在成为一个易于使用和用户友好的代码库，并简化学术研究活动和工程任务。

2023-06-07 22:05:08 637

原创【OpenMMLab】深度学习预训练与 MMPreTrain

MMPretrain 是一个全新升级的预训练开源算法框架，旨在提供各种强大的预训练主干网络，并支持不同的预训练策略。MMPretrain 源自 MMClassification 和MMSelfSup，并开发了许多新功能。预训练阶段对于视觉识别至关重要，凭借丰富而强大的预训练模型，能够用于改进各种下游视觉任务。代码库旨在成为一个易于使用和用户友好的代码库，并简化学术研究活动和工程任务。

2023-06-05 19:33:45 419

原创【openMMLab】MMPose 代码教程

本次博客将带大家进行关键点检测实战，体验关键点检测的全流程

2023-06-03 18:01:52 583

原创【OpenMMLab】人体姿态估计、关键点检测与MMPose

OpenMMLab概述为大家介绍了通用视觉框架 OpenMMLab 中具有代表性的算法库，如MMPretrain、MMDetecton、MMDetection3D、MMRotate、MMSegmentation、MMPose、MMAction2、MMOCR、MMagic、MMYOLO等。本篇博客将深入了解人体姿态估计（或关键点检测）算法，以及OpenMMLab 开源的用于关键点检测的算法库 MMPose。

2023-06-02 23:23:25 594 1

原创【OpenMMLab】OpenMMLab概述

OpenMMLab 诞生于2018年，是一个由中国开发者主导的人工智能计算机视觉开源算法体系。每个计算机视觉任务都有相应的OpenMMLab在Github上开源。OpenMMLab 已经累计开源了超过30个算法库，大量的预训练模型，涵盖了图像识别分类，目标检测，语义分割，姿态估计等等各种计算机视觉任务。而且这些算法库都在Github上免费开源，可以直接下载所有的源代码和预训练文件。

2023-06-01 23:21:46 2014

DplusC的博客