自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(14)
  • 收藏
  • 关注

原创 通义千问(Qwen-VL)本地微调

官方上给的对话是一次对话给一个框的信息,但是如果一张图有多个框就需要多次对话。经过测试发现对话轮数越多训练时间也越长,并且测试后发现貌似一个id好像仅限6轮对话(不确定),所以需要根据自己的数据进行修改。修改finetune/finetune_qlora_single_gpu.sh中的一些设置,其中主要修改标红部分,其他参数自己设当调整。在这里可以选择多种下载方式,然后根据自己的显存选择合适的,我是选择最小的Int4的量化模型,但是我参照使用git命令行下载会下载不了不知为何,最后还是自己手动下载到本地。

2024-03-11 15:12:13 1632 1

原创 将自己的数据集格式(xml)转化成通义千问的微调格式(json)

根据自己的xml文件进行相应修改里头的属性。

2024-02-28 17:24:02 229 1

原创 目标检测和实例分割:COCO格式json直接转换成yolo格式txt

如果想使用yolo训练类似coco标注格式的数据集需要进行格式转换,将json格式转换为yolo的txt格式。

2024-01-17 17:50:16 964

原创 目标检测:yolo格式txt转换成COCO格式json

修改对应文件路径即可,其他根据txt或者希望生成的json做轻微调整。

2024-01-17 17:41:25 533

原创 目标检测:VOC xml标注格式转换成COCOjson格式(从一整个存放xml(txt)的文件夹到一个json文件)

可以将xml或者txt转换成coco标注格式,即一整个json文件。

2024-01-17 17:32:54 713

原创 目标检测:CoCo类型的json文件转换成Voc类型的xml文件(一张图片一个xml)并进行可视化检验

代码可以直接使用,只需要修改相应路径即可,同时根据json的不同做一些相应改进。

2024-01-17 17:17:36 640

原创 大白话谈谈ChatGPT:多点人工,多点智能

大白话谈谈ChatGPT

2023-02-20 22:45:54 4127 1

原创 论文笔记:Beyond a Pre-Trained Object Detector:Cross-Modal Textual and Visual Context for Image Caption

Xmodal-Ctx 建议在以往的架构中添加一个辅助输入,用于表示缺失的信息(例如对象关系)。Xmodal-Ctx 对每个组件和预训练多模态模型的重要性进行了全面分析,验证了其在图像描述生成任务上的有效性

2022-10-27 15:34:15 1748

原创 论文笔记:Dual-Level Collaborative Transformer for Image Captioning

前言论文详情可以参照这篇,写得很好。本小白这篇内容主要是对论文中的一些思想和图以及部分公式进行自己的解读。如有错误,请多多谅解。论文思想首先,根据论文第一作者在知乎所说(搜这篇论文名称可以看到),自从2018年CVPR《Bottom-up and top-down attention for image captioning and visual question answering》(这篇论文的解析在这里)提出以来,image caption一直使用的是BUTD提供的Object Re..

2022-03-24 15:17:27 5205

原创 论文笔记:Meshed-Memory Transformer for Image Captioning

前言在看这篇论文之前首先要了解transformer,如果还没了解的需要先去看transformer。本小白是在学习了transformer之后,开始阅读使用transformer来做image caption的文章。这篇论文是CVPR2020的一篇论文,作者在摘要中提到虽然基于Transformer的体系结构代表了序列建模任务(如机器翻译和语言理解)的最新水平。然而,它们对图像描述等多模态上下文的适用性仍然有待探索,所以作者为了fill the gap ,提出了M^2(Meshed Transfo..

2022-03-22 20:29:38 2307

原创 论文笔记:Bottom-Up and Top-Down Attention for Image Captioningand Visual Question Answering

前言这篇文章是本人第一次看image caption相关类型的文章,参考了很多的笔记,但是总有一些地方还是有一些不理解,所以决定自己写一份笔记记录,并且只看image caption相关部分,VQA就没有看。小白一枚~有说的不对的请多指教一、阅读这篇论文的目的?了解何为自顶向下和自底向上,这两者组合的注意力机制又是怎么应用于image caption。首先第一个问题,原文中的introduction就告诉了我们:在本文中,我们采用了类似的术语,将由非视觉或任务特定情境驱动的注意机制...

2022-03-17 17:12:56 5003 1

原创 浅谈视觉与语言中的多模态研究,究竟都研究什么

前言随着人工智能的整体进步,计算机视觉和自然语言处理已经有了巨大的。有了如此强大的算法和自主系统的综合能力,就需要合并知识领域,实现跨模态兼容,视觉语言(VisLang)研究具有更复杂的任务和交互式和可解释系统的需要。这已经浮出了各种具有挑战性的任务,如视觉语言导航,机器人的自主功能与环境的全面了解,视觉字幕生成丰富和有意义的语言描述等等,本篇就浅谈视觉语言多模态研究究竟在研究什么。VisLang任务总结1.Generation tasksVisual Question...

2022-03-15 10:54:51 4678

原创 论文记录:图像描述技术综述

文章目录 前言 一、什么是image caption? 二、基于深度学习的图像描述方法 1.基于编码器-解码器的方法 2.基于注意力机制的方法 3.基于生成对抗网络的方法 4.基于强化学习的方法 5.基于密集描述的方法 总结 前言因为实验室研究方向是image caption,所以最近开始阅读一些image caption的综述。一、什么是image caption?图像描述技术,就是以图像为输入,通过数学模型和计算使计算机输出对...

2022-03-14 16:03:36 5760 3

原创 Birch算法介绍

目录前言一、Birch算法基本思想二、聚类特征CF和CF 树1.聚类特征CF2.CF tree3.CF tree 的生成三、Birch算法流程1.birch算法的优化2.算法优缺点四、算法实验实例1、研究不指定簇数的情况下,Birch算法的聚类情况2、研究聚类簇数对Birch算法的影响3、研究CF半径阈值对Birch算法的影响4、研究每个节点内最大CF个数对Birch算法的影响实验总结参考文献前言聚类算法中的层...

2022-01-02 11:59:12 10544 8

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除