自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(114)
  • 收藏
  • 关注

原创 第八节 LLaVA模型CLI推理构建custom推理代码Demo

我在第七节介绍了cli.py推理源码解读,而我也因项目需要构建了推理demo,我们是用来自动生成标签和推理需要。想了想,我还是用一节将我的代码记录于此,供有需求读者使用。本节,介绍更改cli.py代码,实现一张图像推理、也为需要grounding的读者提供如何在图上给出目标box。我测试官方提供lora与非lora权重,我发现非lora效果会比lora好。当然这是我测试工程数据得到结论,只做参考。

2024-04-29 22:55:32 47

原创 第十一节 huggingface的trainner解读与demo(LLaVA训练补充-上篇)

在你大致理解LLava模型的训练流程,你也会发现,LLaVA模型训练采用huggingface的trainer结构,将其对应参数或模型构建完,调用trainer实现训练。这也是我为什么要补充额外文章来介绍huggingface的trainer相关内容。我将此内容划分2篇文章来介绍,本篇文章介绍trainer的参数与其对应的TrainingArguments参数,并给出部分参数使用方式。TrainingArguments是模型训练相关参数控制或按照自己想法设计trainer训练过程,而trainer则****

2024-04-26 11:08:22 64

原创 Groma: Localized Visual Tokenization for Grounding Multimodal Large Language Models论文解读

具有区域的多模态大模型,除了整体图像理解之外,Groma 还擅长区域级任务,例如区域描述和视觉grounding。此类功能建立在本地化视觉标记化机制的基础上,其中图像输入被分解为感兴趣的区域,然后编码为区域标记。通过将区域标记集成到用户指令和模型响应中,我们无缝地使 Groma 能够理解用户指定的区域输入并将其文本输出转化为图像。此外,为了增强 Groma 的接地聊天能力,我们利用强大的 GPT-4V 和视觉提示技术,策划了一个视觉 grounded的指令数据集。

2024-04-25 20:00:00 824

原创 第十节 LLAVA模型训练流程与方法

最近,有些忙,正在处理相关实验。很多东西我已实现,但没有时间组成文章。很抱歉。我之所以写一篇模型训练流程方式,是想借此告知LLAVA模型训练流程,不至于我下次说到模块细节而大脑没有整体结构。因此,我写了此篇文章,本文主要介绍如何训练模型以及训练模型步骤是哪些,最终构成模型训练完整流程与源码完整流程。只有语言模型结构。

2024-04-19 22:30:00 139

原创 Mini-Gemini: Mining the Potential of Multi-modality Vision Language Models论文解读

随着大型语言模型(LLMs)的快速发展,将多模态输入的强大能力融入视觉语言模型(VLMs)已成为当前模型的核心部分。为了弥合模态鸿沟,已有研究尝试将视觉与LLMs结合,从图像到视频都有涉及。尽管取得了进步,但学术界的努力与GPT-4和Gemini等成熟模型的强大性能之间仍存在显著差距,这些模型是基于大量数据和资源训练的。

2024-04-19 14:20:54 1098

原创 第七节 LLaVA模型CLI推理源码解读(多轮对话推理方式与原理(prompt与assistant))

为什么介绍cli.py方式进行推理呢?答案很简单,我想通过这个代码告知读者,模型是如何进行推理的,明确输入内容处理方式和模型输出内容,以及多轮对话输入与模型输出内容,而借助推理等方式是需要使用服务啥的客户端或服务端等,是比较麻烦的工程问题。因此,本文将介绍cli推理方式,露骨告知其推理原理与整个数据流程。同时,我也将使用列子与结果,实现三轮对话,说明模型如何工作或完成对话能力。然而,这部分内容和我之前数据章节有些关联,请大家自行查阅。

2024-04-09 20:45:00 325

原创 模拟多模态大模型gradio使用教程

最近,在看多模态推理模块,涉及到gradio相关用法。介于此,我将介绍网页界面gradio如何与大模型结合使用,实现与模型交互。我主要用到gr.Row()与gr.Column()方法实现界面部署,使用button方法触发事件,以及如何界面输入或输出使用图片等内容。读懂该部分基本已可实现大模型界面基本设置,也能更易解读别人源码。

2024-04-08 17:54:27 962

原创 自动构建文件(exp->exp1->exp2方式,increment_path函数)

这里,我将介绍一个函数用于文件夹重复筛选,该函数来源yolov5,以v5举例,训练exp文件,若遇到存在exp就建立exp2路径。我觉得这个功能比较实用,代码也比较少。我作为记录写于博客,便于快速复用。

2024-04-07 13:45:40 157

原创 第六节 LLaVA模型数据处理源码解读(input_ids/labels/attention_mask/image,上篇)

本篇文章直接介绍llava模型数据加工部分,整体结构说明llava多模态模型输入数据格式,其中包含input_ids/labels/attention_mask与image格式,并给出对应代码位置与整个数据加工流程。最重要,通过debug给出数据解释与代码解读,也通过一个真实数据给出模型输入格式说明。当你阅读完此篇文章,绝对透彻理解llava数据加工过程与内容。显然,一篇博客是无法呈现整个数据细节,我将继续下篇博客呈现数据细节处理。result = input.ne(3) # torch.ne函数调用。

2024-04-02 15:29:45 434

原创 图像描述(image caption)模型简单demo(源码理解原理)

图像描述模型简单理解是通过图像给出一段描述内容,实际也类似一种生成模式,和我一篇博客讲的对话模型相似。然而,网络很少从代码层次去说明图像描述具体做法与细节。基于此,我原创一个简单模型,旨在帮助理解原理,但不具备很好效果能力。涉及到文本相关内容,文本数据最终都是转为对应字典索引代表其文本内容,输入模型加工,实现文本相关任务,图像描述模型也不列外。点击这里# 我这里假设构造一个图像特征是一个且对应描述也是一个vocab_size = 11 # 字典大小,也是后面概率预测数,一般是32000。

2024-03-16 10:00:00 1072 1

原创 史上最全AP/mAP通用代码实现(yolov5 txt版本)-下

史上最全AP、mAP详解与代码实现”文章(这里)已经介绍了map相关原理,且给出相应简单代码实现AP方法。然将AP计算融入模型求解AP结果,可能是一个较为复杂的工程量。我也在http://t.csdnimg.cn/j410Y博客分享基于模型构造一个即插即用计算map的相关模块代码,使用者只需复制我的模块,即可使用。然,之前方法是需要使用xml格式,依然对yolo模型不甚友好,我再此修改为txt方式,使用yolo本身数据实现small、medium、large等相关AP或AP0.75等结果预测。

2024-03-08 11:31:51 1116 4

原创 第五节 LLaVA模型推理命令(包含lora训练权重推理方法)

LLAVA模型训练方式有预训练、微调训练,而预训练需要大量算力与数据支持,我们将不在重点考虑。对于微调,也因其计算资源导致成本较高,一般不会采用全量微调方式,而是多采用PEFT方式完成,而PEFT代表的Lora微调模型性价比较高。介于此,Lora微调需要合并权重方可实现,在于我个人摸索下实现了LLAVA模型lora训练的推理。为此,我将LLAVA所有推理方式记录于此。。

2024-03-07 15:07:47 515

原创 第四节 查看bin权重文件内容

为什么我单独用一节文章记录llava相关bin权重文件内容?原因很简单,它比较重要,我们可以通过查看权重相关变量间接感性认识llava模型结构,以便我们对模型权重含义理解。本篇文章将涉及lora权重与大语言LLM模型llama的权重,以及相应mm_project与vit图像编码权重。这样我们将从权重文件理解llava本身结构,并也给出自带lora训练权重相关内容,将对我们训练模型保存对应权重也是十分必要的,且也能帮助我们如何把lora权重更新原始权重。从权重中,你该明白了吧!

2024-03-07 14:51:00 119

原创 Tokenize Anything via Prompting论文解读

随着分割一切的SAM模型基准,紧接着tag一切的RAM模型基准,又紧接着Tokenize Anything via Prompting,提出了一个unified and prompt模型能够同时分割、识别和描述anything。不同与SAM模型,我们目的是视觉prompt构建一个多功能区域表征。为了实现这个,我们使用大量语义分割mask数据(如SA-1B)以及来自有5b参数预训练CLIP模型先验分割信息,训练一个泛化模型。

2024-03-02 13:05:38 922

原创 第九节 基于huggingface加载openai/clip-vit-large-patch14-336视觉模型demo

本文介绍如何使用huggingface加载视觉模型openai/clip-vit-large-patch14-336,我之所以记录此方法源于现有大模型基本采用huggingface库来加载视觉模型和大语言模型,我也是在做LLava模型等模型。基于此,本节将介绍如何huggingface如何加载vit视觉模型。

2024-02-26 20:26:04 1257

原创 ReViT: Enhancing Vision Transformers with Attention Residual Connections for Visual Recognition论文解读

今天看了一篇论文,说的是transformer如何解决模型坍塌问题,保留类似VIT模型特征提取的稳定与表达。作者提了一个类似残差方式来解决这个问题。然而,该论文思路比较简洁,我将快速解读这篇论文,并以此记录。摘要:自注意机制VIT在更深层坍塌,导致low-level视觉特征消失。而这样特征有利于图像元素间精确表征与识别,在基于视觉识别系统中增加精确与稳定。

2024-02-22 22:03:35 1214 1

原创 tokenizer添加token的详细demo

我们在Hugging Face不同模型对应的tokenizer映射字典,不存在某些专有词汇,我们需要新增对应的token,以便我们使用对应模型处理不存在专业词汇。为此,本篇文章针对此问题,记录如何为tokenizer添加对应词汇,便于模型转换。

2024-02-21 21:06:38 617

原创 transformer图像切块与还原(window_partition+window_unpartition)

假如b ,h,w,c=(3,32,32,768)需将h w按照14尺寸切割,32/14无法整除,需pad为(3,42,42,768)完成固定尺寸块切割,进而完成transformer结构,最终摒弃pad数据还原为(3,32,32,768)。在使用Transformer结构提取特征时,通常会使用window_partition和window_unpartition来划分和还原图像块的过程。这两个步骤是为了将图像分割成小块,送入Transformer网络进行处理,然后再将处理后的特征重新组合成原始图像的尺寸。

2024-02-18 18:40:08 497

原创 CogVLM训练源码解读--数据处理

本文是CogVLM是一个多模态大型模型,它能够处理文本、图像和其他类型的数据。在数据处理方面,CogVLM可以接收多种类型的输入数据,包括文本、图像、音频等。然而,很少有人对代码数据处理进行解读或者基本找不到。基于此,本文将结合源码给出CogVLM大模型数据处理内容,主要包含图像数据处理、文本tokenizer构建、文本加工与修改自己文本方法代码修改。总之,我将结合代码一步一步带领读者实现大模型数据处理源码内容。

2024-02-18 10:13:17 983

原创 对话模型Demo解读(使用代码解读原理)

对话模型是一种人工智能技术,旨在使计算机能够像人类一样进行对话和交流。这种模型通常基于深度学习和自然语言处理技术,能够理解自然语言并做出相应的回应。然而现有博客很少介绍对话模型内容,也很少用一个简单代码带领大家理解其原理。因此,我创建一个简单的对话模型,在不适用Hugging Face或LSTM结构,旨在使用一个简单的全连接神经网络来实现这个模型,且代码基于PyTorch框架搭建,意在帮助读者构建对话模型知识。当然,模型仅是一个简单模型,旨在帮助理解原理,不具备很好效果能力。

2024-02-11 11:19:37 841

原创 Depth Anything: Unleashing the Power of Large-Scale Unlabeled Data论文解读

随着分割一切的SAM模型基准,紧接着tag一切的RAM模型基准,又随着区域token一切的TAM模型基准,迎来了深度估计一切的DAM模型。不错,本文介绍Depth Anything论文,改论文是单目深度估计论文。这项工作提出了 Depth Anything,这是一种用于鲁棒单目深度估计的高度实用的解决方案。在不追求新颖的技术模块的情况下,我们的目标是建立一个简单而强大的基础模型,处理任何情况下的任何图像。这项工作提出了 Depth Anything,这是一种用于鲁棒单目深度估计的高度实用的解决方案。

2024-01-31 21:40:49 957 1

原创 yolov5模型ComputeLoss类源码详细解读

最近,需要修改yolov5推理结果,往往需要非常熟悉输出过程head的loss计算方式。特别地,对于box回归来说十分重要,到底是在原始图像尺寸进行box回归loss计算,还是在特征图尺寸计算,又如何使用将回归偏移值进行loss计算?这些问题,无不需要十分熟悉原理与源码方可透彻理解。为此,本文将记录yolov5的ComputeLoss源码解读,包含内容为透彻分析偏移值运用、target与pred预测回归使用,以及正负样本筛选源码理解。

2024-01-28 20:14:34 1074

原创 linux系统服务器A读取远程linux系统服务器B文件(以cv读图文件为列)

当一个服务器需要处理另一个服务器上已知图像的绝对路径时,可以使用 Paramiko 库连接到远程服务器并读取图像,然后使用 OpenCV(cv2)库在本地服务器上加载和处理图像。以下是示例代码,演示了如何使用 Paramiko 和 cv2 库来实现这一操作。本文就给出应用。

2024-01-16 21:47:56 405

原创 yolov5模型Detection输出内容与源码详细解读

最近,需要修改yolov5推理结果,通过推理特征添加一些其它操作(如蒸馏)。显然,你需要对yolov5推理输出内容有详细了解,方可被你使用。为此,本文将记录个人对yolov5输出内容源码解读,这样对于你修改源码或蒸馏操作可提供理论参考。掌握yolov5的Detection类训练与预测输出内容,有利于对源码更改提供理论依据。

2024-01-14 21:54:40 1333

原创 EVA-CLIP: Improved Training Techniques for CLIP at Scale论文解读

最近,我一直在搞多模态大模型相关工作,也深知CLIP结构重要性,而EVA-CLIP论文是在CLIP模型基础上进行了一系列trick,实现优越CLIP模型的方法,恰巧该EVA-CLIP也被CogVLM模型作为图像特征提取。为此,我将在本博客对EVA-CLIP论文进行解读。对比图形文本预训练模型,简称CLIP,因其在多个场景潜力受到很多人关注。在这篇文章,我们提出一系列EVA-CLIP模型,显著提高CLIP训练性能与效果。

2024-01-13 16:02:54 1207

原创 MS-DETR论文解读

今天,偶然看到MS-DETR论文,以为又有什么高逼格论文诞生了。于是,我想查看一番,改论文讨论原始DETR中使用一对一监督的传统训练过程缺乏对对象检测候选者的直接监督。本文旨在通过混合一对一监督和一对多监督来明确监督候选生成过程,从而提高DETR训练效率。本文最主要贡献在解码decoder实现行一对多监督。实验结果表明,我们的方法优于相关的DETR变体,如DN-DETR、Hybrid DETR和Group DETR,并且与相关DETR变体的组合进一步提高了性能。本博客将带领读者共同探讨此文章。

2024-01-10 22:04:08 938

原创 第三节 vscode环境对llava模型debug方式教程

之前博客这里介绍LLava1.5多模态大模型的安装、训练、预测等。但对于你想查看源码或多或少都有些麻烦,也不利于代码调试。基于此,本文是一篇基于vscode框架调试llava大模型的教程。

2024-01-10 00:00:00 559

原创 torch.nn.functional.interpolate与torchvision.transforms.Resize方法对张量图像Resize应用

要使用 PyTorch 对张量进行调整大小,您可以使用 torch.nn.functional.interpolate 函数。要对cpu中类似PIL数据,您可以使用torchvision.transforms.Resize函数。本文将介绍这2种函数应用方法。

2024-01-09 11:07:13 933

原创 huggingface实战bert-base-chinese模型(训练+预测)

Hugging Face是一家人工智能公司,致力于提供自然语言处理(NLP)模型和工具的开源库。他们的开源库包括了BERT等各种预训练模型的实现,以及用于训练、微调和部署这些模型的工具。在本文中,我们将探讨如何使用Hugging Face的库来构建一个BERT分类模型,该模型能够对文本进行分类,例如情感分析、文本分类等任务。我们将介绍如何使用Hugging Face提供的transformers库来构建、训练和评估BERT分类模型。

2024-01-08 21:50:00 1835 2

原创 CogVLM多模态大模型训练代码详细教程(基于vscode调试与训练)

今天(2023-12-29),我很开心,断断续续时间搞了一下CogVLM大模型训练代码,终于实现了CogVLM大模型训练。特别是我是基于vscode编辑器配置launch.json文件在RTX4090显卡实现多模态大模型训练。可能很多玩过大模型或显卡显存充足情况下,使用官网教程,顺利情况亦可实现该模型训练。然我介于显卡为云服务,不得不在一张4090显卡上实现代码解读与训练。而代码解读必然使用debug模式较佳,在多种编辑器中看到vscode能力,我实现deepspeed方式在vscode中训练大模型。

2024-01-08 00:00:00 1738 4

原创 Video-GroundingDino论文解读

之前我在博客介绍了一篇grounding DINO文章,该篇文章只是用于图像定位检测的open-vocabulary内容。最近,偶然看到一篇video grounding DINO文章,该篇文章解决视频相关定位,视频Grounding旨在定位视频中与输入文本查询相对应的时空部分。本文通过引入开放词汇时空视频Grounding任务,解决了当前视频Grounding方法中的一个关键限制。直白说,作者使用时空方式实现视频open-vocablary任务。我将在本博客分享我的见解,若有错误之处,欢迎指正。

2024-01-07 14:26:57 1251

原创 huggingface的tokenizer解读

目前很多大模型或NLP相关模型可使用huggingface实现,是一个非常好用的集成库,特别是transformer库。而Hugging Face的Tokenizer模块是该平台的重要组成部分,主要用于文本的处理和编码。Tokenizer模块提供了各种先进的文本处理工具,包括分词、编码、解码等功能。本文将以llama模型作为tokenizer列子,介绍tokenizer相关使用内容。

2024-01-01 00:00:00 1244

原创 史上最全AP/mAP通用代码实现(即插即用-基于yolo模型)-中

史上最全AP、mAP详解与代码实现”文章(这里)已经介绍了map相关原理,且给出相应简单代码实现AP方法。然将AP计算融入模型求解AP结果,可能是一个较为复杂的工程量。恰好,我也有一些这样的需求,我是想计算相关DETR的map指标。我将构造一个即插即用计算map的相关模块代码,使用者只需赋值我的模块,即可使用。

2023-12-28 10:30:00 1071

原创 coco json转xml格式(开箱即用代码)

最近使用很多其它模型,大多模型都有自己对应格式,有时其它模型的cocojson格式的数据测试也都要进行数据格式转换,有时候也想看coco json注释显示在图上。那么,你可能需要一个coco json格式转xml格式代码,帮助查看,且我总是会把这些工具代码莫名丢失,重头写较为麻烦。为克服这些问题,本文将使用coco数据集格式作为标准,记录如何将coco数据格式转为xml格式。

2023-12-25 22:00:00 565

原创 DETR++: Taming Your Multi-Scale Detection Transformer论文解读

今天查看了一篇DETR++论文,本想网络上找博客大概浏览一下,不料网上对DETR++资料较少。无奈,我只有自己查看原文,了解其方法。为此,本篇博客将介绍DETR++论文内容,也希望我的解读会快速让朋友们了解其论文方法。论文链接:https://arxiv.org/pdf/2206.02977v1.pdf自从AlexNet在图像分类网络出现,目标检测使用CNN结构已占主导地位。随着transformer在自然邻域广泛使用,Carmethod引入DETR来处理目标检测。

2023-12-23 16:46:36 908 1

原创 RTDETR模型一键训练/预测(执行train.sh与detect.sh)

本文章基于客户一键训练与测试需求,我使用u公司的yolov8集成的RTDETR模型改成较为保姆级的``一键``操作的训练/预测方式,也特别适合新手或想偷懒转换数据格式的朋友们。本文一键体现数据格式为图像与xml,调用train.sh与detect.sh可完成模型的训练与预测。而为完成该操作,模型内嵌入xml转RTDETR的txt格式、自动分配训练/验证集、自动切换环境等内容。接下来,我将介绍如何操作,并附修改源码。

2023-12-21 14:47:09 1142

原创 RTDETR论文快速理解和代码快速实现(训练与预测)

最近,我们想比较基于DETR的transformer模型与基于CNN的yolo模型效果,而百度RT-DETR模型声称“在实时目标检测领域打败YOLO”。从数据的角度来看,RT-DETR似乎确实在某些方面超越了YOLO。我选择RT-DETR模型与YOLO模型比较。本篇文章将介绍RT-DETR模型原理–>环境安装–>数据准备–>训练实现–>预测实现。近期,端到端基于transformer检测器DETRs已有显著性能。然而,DETR的计算成本限制其实际应用,也阻止其无后处理的优势(如:NMS)。

2023-12-20 22:24:25 2585

原创 环境安装问题(库、代码等问题)

该文章会一直更新遇到环境安装问题,使用他/她人博客解决方法,并附解决方法博客链接。

2023-12-20 21:58:43 626

原创 CogVLM大模推理代码详细解读

最近,我一直在查看多模态大模型相关内容,而CogVLM是我们公司需要重点研究模型。同时,CogVLM模型很少有文章涉及到代码相关解读,令更多小白困惑。介于此,我会陆续解读源码并分享。本篇文章,我将分享CogVLM推理整个pipeline走向,带大家熟知CogVLM模型推理过程,这里推理过程有别于hugginggface通用推理构建方法,本篇文章主要内容为作者训练好的参数说明、模型构建与推理stream。最终帮助大家熟知模型整个推理pipeline,特别是对sat库使用有一定认识。

2023-12-14 23:00:10 1746 3

原创 第二节 大模型的deepspeed使用vscode运行或调试debug的环境配置与解读(补充-vscode)

最近在研究deepspeed相关内容,但使用命令方式无法单步调式调用代码的问题,若直接离线看代码,在一定程度上降低效率。同时,使用deepspeed方式debug代码内容较少。为此,我特意在少有信息中和代码实验验证完成基于vscode对deepspeed进行debug方法。特别的,该方式不仅适合deepspeed命令debug,也适用torchrun命令debug,更能延伸其它命令debug模式。本文内容分为三部分,第一部分介绍如何使用vscode传递参数debug;

2023-12-14 17:11:37 894 1

目标检测指标map+map计算代码+map计算列子(包含gt与pred输入)

“史上最全AP、mAP详解与代码实现”文章([这里](http://t.csdnimg.cn/VMSSn))已经介绍了map相关原理,且给出相应简单代码实现AP方法。然将AP计算融入模型求解AP结果,可能是一个较为复杂的工程量。恰好,我也有一些这样的需求,我是想计算相关DETR的map指标。我将构造一个即插即用计算map的相关模块代码,使用者只需赋值我的模块,即可使用。同时,为了更好快速使用,我将基于通用模型yolo为基准介绍map通用模块(你有疑问,yolo已有val.py可测试map,但yolo无法测出small、medium、large等相关AP或AP0.75等结果)。本文将直接介绍计算map核心代码简单列子,在此基础上介绍整个即插即用map计算模块使用方法与代码解读。该资源便是列子内容,可参考“史上最全AP、mAP通用代码实现(即插即用-基于yolo模型)”博客。

2023-12-24

RT-DETR+auto-train-detect+RTDETR-run

本文章基于客户一键训练与测试需求,我使用u公司的yolov8集成的RTDETR模型改成较为保姆级的``一键``操作的训练/预测方式,也特别适合新手或想偷懒转换数据格式的朋友们。本文一键体现数据格式为图像与xml,调用train.sh与detect.sh可完成模型的训练与预测。而为完成该操作,模型内嵌入xml转RTDETR的txt格式、自动分配训练/验证集、自动切换环境等内容。接下来,我将介绍如何操作,并附修改源码。 本文一个目的,傻瓜式训练与预测,通过sh脚本实现3个任务, ①、虚拟环境自动切换 ②、数据格式自动转换,输入为图像文件与对应xml文件自动完成rtdetr模型训练与预测数据格式 ③、模型自动训练与预测,且只需执行sh train.sh或 sh detect.sh即可实现

2023-12-21

目标检测+RTDETR+训练与预测代码

使用Ultralytics公司的yolov8版本集成RTDETR模型,可用于训练与预测。本文件包含如何训练的命令与预测py代码及权重和数据集,可直接执行进行训练或预测。

2023-12-19

vscode-main+deepspeed进行debug+vscode配置deepspeed环境debug代码

最近在研究deepspeed相关内容,但使用命令方式无法单步调式调用代码的问题,若直接离线看代码,在一定程度上降低效率。同时,使用deepspeed方式debug代码内容较少。为此,我特意在少有信息中和代码实验验证完成基于vscode对deepspeed进行debug方法。特别的,该方式不仅适合deepspeed命令debug,也适用torchrun命令debug,更能延伸其它命令debug模式。本文内容分为三部分,第一部分介绍如何使用vscode传递参数debug;第二部分介绍如何使用deepspeed进行debug;第三部分介绍vscode通用命令方式进行debug。 原文解说:https://editor.csdn.net/md?not_checkout=1&spm=1001.2014.3001.9614&articleId=134992123

2023-12-14

CV-gronding-dino,tag2text,ram,ram++-原文重点翻译-论文解读

随着SAM模型分割一切大火之后,又有RAM模型识别一切,RAM模型由来可有三篇模型构成,TAG2TEXT为首篇将tag引入VL模型中,由tagging、generation、alignment分支构成,随后才是RAM模型,主要借助CLIP模型辅助与annotation处理trick,由tagging、generation分支构成,最后才是RAM++模型,该模型引入semantic concepts到图像tagging训练框架,RAM++模型能够利用图像-标签-文本三者之间的关系,整合image-text alignment 和 image-tagging 到一个统一的交互框架里。作者也介绍将tag引入Grounding DINO模型,可实现目标定位。为此,本文将介绍这四篇文章。

2023-12-09

CogVLM论文+翻译

尽管部分博客已对CogVLM论文有解读,但总归是夹杂自己理解内容,也不好快速与原文对照。介于此,我在原文重要部分添加了个人翻译笔记,为更多想快速阅读朋友很好提供参照,若有喜欢可自行下载使用。

2023-11-28

文本提取+文本关键词标注+利用词库匹配文本关键词

这个一个传统简单python脚本,用于处理基于已有词库匹配文本中存在的关键词查找。

2023-11-15

NLP(BERT)+vocab.txt+中/英文转token+内容转模型识别符号

NLP语言模型、多模态模型等的中/英文编码字符map表,此文件来源bert模型内容,可供读者查看其内容。

2023-10-13

yolov5+auto-train-detect+yolov5-run

本文章基于客户一键训练与测试需求,我将yolov5模型改成较为保姆级的``一键``操作的训练/预测方式,也特别适合新手或想偷懒转换数据格式的朋友们。本文一键体现只需图像文件与xml文件,调用train.sh与detect.sh可完成模型的训练与预测。而为完成该操作,模型内嵌入xml转yolov5的txt格式、自动分配训练/验证集、自动切换环境等内容。接下来,我将介绍如何操作,并附修改源码。

2023-09-14

yolov5部署+onnx-cpp-tensorrt+onnx的yolov5部署源码

本资源属于我的cuda专栏教程是C++版本基于onnx的yolov5部署代码。而我教程介绍如下: 随着人工智能的发展与人才的内卷,很多企业已将深度学习算法的C++部署能力作为基本技能之一。面对诸多arm相关且资源有限的设备,往往想更好的提速,满足更高时效性,必将更多类似矩阵相关运算交给CUDA处理。同时,面对市场诸多教程与诸多博客岑子不起的教程或高昂教程费用,使读者(特别是小白)容易迷糊,无法快速入手CUDA编程,实现工程化。 因此,我将结合我的工程实战经验,我写了CUDA系列教程专栏,帮助读者(或小白)实现CUDA工程化,掌握CUDA编程能力。学习我的教程专栏,你将绝对能实现CUDA工程化,完全从环境安装到CUDA核函数编程,从核函数到使用相关内存优化,从内存优化到深度学习算子开发(如:nms),从算子优化到模型(以yolo系列为基准)部署。最重要的是,我的教程将简单明了直切主题,CUDA理论与实战实例应用,并附相关代码,可直接上手实战。我的想法是掌握必要CUDA相关理论,去除非必须繁杂理论,实现CUDA算法应用开发,待进一步提高,将进一步理解更高深理论。

2023-09-09

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除