詹姆斯德-CSDN博客

原创通义千问（Qwen-VL）本地微调

官方上给的对话是一次对话给一个框的信息，但是如果一张图有多个框就需要多次对话。经过测试发现对话轮数越多训练时间也越长，并且测试后发现貌似一个id好像仅限6轮对话（不确定），所以需要根据自己的数据进行修改。修改finetune/finetune_qlora_single_gpu.sh中的一些设置，其中主要修改标红部分，其他参数自己设当调整。在这里可以选择多种下载方式，然后根据自己的显存选择合适的，我是选择最小的Int4的量化模型，但是我参照使用git命令行下载会下载不了不知为何，最后还是自己手动下载到本地。

2024-03-11 15:12:13 1632 1

原创将自己的数据集格式（xml）转化成通义千问的微调格式（json）

根据自己的xml文件进行相应修改里头的属性。

2024-02-28 17:24:02 229 1

原创目标检测和实例分割:COCO格式json直接转换成yolo格式txt

如果想使用yolo训练类似coco标注格式的数据集需要进行格式转换,将json格式转换为yolo的txt格式。

2024-01-17 17:50:16 964

原创目标检测:yolo格式txt转换成COCO格式json

修改对应文件路径即可,其他根据txt或者希望生成的json做轻微调整。

2024-01-17 17:41:25 533

原创目标检测:VOC xml标注格式转换成COCOjson格式(从一整个存放xml(txt)的文件夹到一个json文件)

可以将xml或者txt转换成coco标注格式,即一整个json文件。

2024-01-17 17:32:54 713

原创目标检测:CoCo类型的json文件转换成Voc类型的xml文件（一张图片一个xml）并进行可视化检验

代码可以直接使用，只需要修改相应路径即可，同时根据json的不同做一些相应改进。

2024-01-17 17:17:36 640

原创大白话谈谈ChatGPT：多点人工，多点智能

大白话谈谈ChatGPT

2023-02-20 22:45:54 4127 1

原创论文笔记：Beyond a Pre-Trained Object Detector:Cross-Modal Textual and Visual Context for Image Caption

Xmodal-Ctx 建议在以往的架构中添加一个辅助输入，用于表示缺失的信息（例如对象关系）。Xmodal-Ctx 对每个组件和预训练多模态模型的重要性进行了全面分析，验证了其在图像描述生成任务上的有效性

2022-10-27 15:34:15 1748

原创论文笔记：Dual-Level Collaborative Transformer for Image Captioning

前言论文详情可以参照这篇，写得很好。本小白这篇内容主要是对论文中的一些思想和图以及部分公式进行自己的解读。如有错误，请多多谅解。论文思想首先，根据论文第一作者在知乎所说（搜这篇论文名称可以看到），自从2018年CVPR《Bottom-up and top-down attention for image captioning and visual question answering》（这篇论文的解析在这里）提出以来，image caption一直使用的是BUTD提供的Object Re..

2022-03-24 15:17:27 5205

原创论文笔记：Meshed-Memory Transformer for Image Captioning

前言在看这篇论文之前首先要了解transformer，如果还没了解的需要先去看transformer。本小白是在学习了transformer之后，开始阅读使用transformer来做image caption的文章。这篇论文是CVPR2020的一篇论文，作者在摘要中提到虽然基于Transformer的体系结构代表了序列建模任务(如机器翻译和语言理解)的最新水平。然而，它们对图像描述等多模态上下文的适用性仍然有待探索，所以作者为了fill the gap ，提出了M^2(Meshed Transfo..

2022-03-22 20:29:38 2307

Guet142021的博客