自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(25)
  • 收藏
  • 关注

原创 多模态:Seed-story故事生成

伴随图像生成和文本生成的迅速发展,多模态故事生成以交错的方式生成叙事文本和生动形象为特征,已成为一种有价值的故事生成方式具有广泛应用的实际任务。该任务的主要难点在于文本和图像之间复杂的相互作用,以及生成连贯的且上下文相关的长序列的能力。github:文章提出Seed-story,一种利用多模态大语言模型生成扩展的多模态故事。

2024-08-12 11:22:41 794

原创 CV Method:YOLOv10 vs YOLOv8

YOLOv10已经开源一段时间了,经过我实际使用测试,也确实性能更好一些,YOLOv10基于v8代码框架改进,so 之前v8可用的大部分trick在v10上可直接代码移植过去(我自己尝试了下,大部分code不需要改动,直接实现装备继承)。本文主要比较一下v10 和 v8之间的区别和改进。yolov10最重要的point就是它的 NMS-free 检测功能,我们知道NMS是检测发展中重要的一环,yolov10通过one-to-onehead实现了不需要NFS的检测模型,这可以有效提升模型的执行速度。

2024-07-24 16:58:42 1290

原创 多模态:Nougat详解

科学知识主要存储在书籍和科学期刊中,通常以PDF的形式。然而PDF格式会导致语义信息的损失,特别是对于数学表达式。文章提出Nougat,一种视觉transformer模型,它执行OCR任务,用于将科学文档处理成标记语言。Nougat尝试用一个端到端的方式来实现过去无数小模型+策略配合的结果。推理速度慢。虽然过去的pipeline设计多个模型,但每个模型都非常轻量化,组合起来的参数量甚至不到Nougat的1/10。定制化难。数据集构建成本高。(但是nougat的数据工程确实也很惊艳,非常值得学习!!

2024-07-09 18:34:22 958

原创 多模态-大模型:MLLM综述(适用初学)

paper近年来,以GPT-4V为代表的多模态大语言模型(Multimodal Large Language Model, MLLM)成为一个新兴的研究热点。它使用强大的大型语言模型(llm)作为大脑来执行多模态任务。其表现出令人惊讶的突发能力,如基于图像和无ocr的数学推理编写故事,在传统的多模态方法中很少见。文章跟踪并总结MLMM的最新进展。论文讨论关键技术和应用,包括多模态指令调优(M-IT)、多模态上下文学习(M-ICL)、多模态思维链(M-CoT)和LLM辅助视觉推理(LAVR)。

2024-06-24 17:49:42 1458

原创 CV Method:超全学习率策略总结

在深度学习中,学习率对模型的训练过程起着很重要的作用,影响着损失函数的变化速度。学习率越低,可以确保不会错过任何局部最小值,但是也意味着将花费更长的训练时间来进行收敛,特别是陷入局部最优的情况下。学习率越高,就容易错过全局最小值导致结果不收敛。一般来说,batch-size的大小一般与学习率的大小成正比。batch-size越大一般意味着算法收敛方向的置信度越大,也可以选择较大的学习率来加快收敛速度。而小的batch-size规律性较差,需要小的学习率保证不出错。

2024-06-06 17:26:43 725

原创 CV Method:经典CNN Backbone总结

Backbone作为一切深度学习任务的基础,不论是理论还是实际应用都有重要的意义,本文针对经典Backbone进行总结,这些Backbone也是面试常见的问题,卷积网络主要以ResNet和其各种变体为主。本文主要介绍这些年比较经典的backbone的一些优势和特点,目前主流的backbone都以transformer为框架进行迭代,不过CNN的backbone是基础中的基础,能很好的帮助初学者理解相关理论和设计理念,也是必须要掌握的技术。

2024-05-30 17:36:13 869

原创 图像处理:文档矫正DocTr++

这段时间一直在搞文档矫正相关实验,阅读了大量相关论文,今天来记录一篇目前比较经典,实用性较好的方法,doctr++Doctr++除了提出一种新的architecture外,most importantly,提出了一种新的数据处理方式,解决了以前文档矫正只能处理带有边界信息的完整文档,文章通过数据处理定义了三种类型的训练数据。图1展示了三类常见的形变文档图像:(a) 包含完整文档边界,(b) 包含部分文档边界,(c ) 不包含文档边界。

2024-05-21 11:22:24 718

原创 图像处理:图像噪声添加

本文主要介绍几种添加图像噪声的方法,用于数据增强等操作。目前主流的噪声添加就这么几种,最常用的是高斯和泊松,在数据增强中还是有很大帮助的。

2024-05-08 16:40:58 1940 2

原创 CV method:最新Backbone---TransNeXt

近几年,Vision Transformer(ViT)已成为各种CV任务的热门Backbone架构,也算是Transformer在CV领域的经典架构。注意力机制可以有效利用全局信息,获取每个像素间的相关性。但也由于这一特性,其平方复杂度和高内存消耗而面临挑战,这限制了其在高分辨率图像特征上的应用。作者基于生物模仿视杆细胞视觉设计的Token混合器聚合注意力和一种具有门控通道注意力的通道混合器卷积GLU。另外作者也在新结构中设计了很多最新技术,将它们结合起来,提出TransNeXt。

2024-04-17 11:38:54 1071

原创 图像生成:SD lora加载代码详解与实现

SD中lora的加载相信都不陌生,但是大家大多数都是利用SD webUI加载lora,本文主要梳理一下SD webUI中lora加载的代码逻辑。关于lora的原理,可以参考我之前的博客——图像生成:SD LoRA模型详解SD model结构一般分为几个部分,如下:SD webui使用pytorch lightning搭建,了解pl的同学可能知道,模型的相关配置一般都写在yaml文件中,因此其实可以根据yaml文件来判断模型的基本结构params:params:ddconfig:out_ch: 3。

2024-04-02 13:59:26 1875 1

原创 多模态:Vary-toy

Vary的提出让大模型在OCR相关任务的能力有了很大突破,通过提出额外的视觉词汇表模块来弥补单一CLIP编码能力的不足,详情可参考我之前的文章——多模态:Vary。最近Vary的团队开发了一个更小版本的Vary模型——1.8B Vary-toy,与Vary相比,Vary-toy除了小之外,还优化了新视觉词表。解决了原Vary只用新视觉词表做pdf ocr的网络容量浪费,以及吃不到SAM预训练优势的问题。

2024-03-19 15:00:16 1116

原创 图像处理:文档图像矫正DocReal

文档图像矫正在图像处理领域属于相对冷门但是很有用的一个任务,这个任务的相关文章还是比较少的,DocReal是2024 WACV的最新文档矫正文章,结合了之前一些技术的亮点,还是值得一看的。DocReal目前code暂未开源这篇文章建议看两个文章作为背景会更容易理解:图像处理:文档图像矫正DDCP文档图像矫正是计算机视觉中的一项重要任务,具有许多实际应用。控制点法(如DDCP)由于其简单高效而备受关注。然而,由于背景噪声和多种变形类型,不准确的控制点预测可能导致不令人满意的性能。

2024-03-08 17:40:52 1452

原创 AIGC应用:Face Editor插件使用(面部优化)

之前的文章讲了Stable diffusion的基本使用技巧——SD基本使用技巧,接下来主要介绍一下相关插件的使用。本文介绍Face Editor插件的使用和内部理论逻辑,该插件能够很大程度缓解面部崩坏的问题。感兴趣的同学可以仔细看一下整个pipeline,作者的思路还是挺有意思的。Face Editor插件效果还是很好的,我自己使用的情况还是很好,尤其对于生成的全身图像,脸崩的情况比较多,修复后还是很好的!!!

2024-02-27 15:21:14 1014

原创 多模态:YOLO-World详解

YOLO系列检测器已将自己确立为高效实用的工具。然而,它们依赖于预定义和训练的物体类别,这在开放场景中限制了它们的适用性。针对这一限制,作者引入了YOLO-World,这是一种创新的方法,通过视觉语言建模和在大型数据集上的预训练,将YOLO与开集检测能力相结合。具体来说,作者提出了一种新的可重参化的视觉语言路径聚合网络(RepVL-PAN)和区域文本对比损失,以促进视觉和语言信息之间的交互。作者的方法在以零样本方式检测具有很好的效果。

2024-02-26 18:47:45 4710 1

原创 AIGC应用:Stable diffusion webui基本使用技巧

Stable diffusion相信很多技术爱好者都了解,并且也尝试用过,目前在各路开源大佬的支持下,Stable diffusion的生图piepline越来越成熟,同时在各种新技术的加持下,可玩性越来越高。相比我以往的理论性文章,该系列文章主要讲解一下SD web ui的具体使用,以及一些拓展功能的使用,同时对自己应用SD有一个记录。SD webui目前的插件越来越多,玩法也越来越多,后面我会继续更新相关使用技巧和内容。

2024-02-20 16:27:26 1410 1

原创 多模态:CLIP详解

2.8: 首先为今天还在努力学习的人们献上🎆CLIP目前无论在CV领域还是NLP领域都是人尽皆知的,该模型的发布直接带动了整个多模态领域的飞速发展。Open AI提出Contrastive Language-Image Pre-training (CLIP),突破了文本-图像之间的限制。CLIP使用大规模的文本-图像配对预训练,并且可以直接迁移到Imagenet上,完全不需要图像标签微调即可实现zero-shot分类。

2024-02-08 13:07:12 3211

原创 多模态:图像分割SAM

图像生成领域爆发性的技术增长让传统计算机视觉技术再次崛起,如目标检测,图像分割,这些技术引入图像生成相关技术的pipeline中,可以设计出更多创新性的算法。而这些基础技术也有了一些大模型,如目标检测的GroundingDINO,图像分割的SAM(segment anything model)。本文主要对SAM进行介绍。SAM是一个交互式分割模型,可以根据提示词对目标进行分割。可有效解决通常自然图像的下游分割任务。整体上来说,SAM的模型结构说不上十分复杂,但其令人竟然的数据工程和训练方式实在让人赞叹。

2024-02-01 18:10:32 1988 3

原创 图像处理:文档图像矫正DDCP

文档图像矫正简单来说就是由于纸张的物理变形、拍摄环境和相机位置,相机捕获的文档图像经常会出现扭曲和背景问题。上述因素将显着增加信息提取和内容分析的难度。为了减少文档图像处理中失真的影响而采取的措施。本文要介绍的方法为。github:以往的研究将几何校正任务视为密集网格预测问题,将二维图像作为输入,输出一个正向映射(每个网格表示出扭曲输出图像中像素点的坐标,像素点对应出扭曲输入图像中的像素点)或反向映射(每个网格表示出扭曲输入图像中像素点的坐标)。

2024-01-23 20:54:59 1277

原创 多模态:Vary

目前大型视觉语言模型(LVLMs)在视觉处理方面通常使用CLIP来完成的。通过CLIP对图像进行编码,可以涵盖大多数常见的视觉语言任务。然而,对于一些需要密集和细粒度视觉感知的特殊视觉任务,例如文档级OCR或图表理解,尤其是在非英语场景中,CLIP风格的词汇在标记视觉知识方面可能会遇到效率低的问题,甚至会出现词汇外问题。因此,文章提出了一种有效扩展LVLMs视觉词汇的方法Vary。

2024-01-15 20:38:31 1399

原创 图像处理:空白patch过滤(空白图判断)

在进行训练相关任务时,有时会对图像进行裁决或取patch的操作,进行这种操作后,不可避免的会引入一些空白patch,或内容量很少的图像,这种图像通常会干扰模型的训练,因此最好过滤掉。本文提供了3种方法对图像进行过滤。本文提供了3种方法对图像进行过滤。本人比较喜欢用第三种,能够有效过滤掉一些没有任何意义的图像。

2024-01-09 16:04:05 535

原创 图像生成:Anydoor

你听说过任意门吗?通过任意门可以将一个物体转送到另一个空间中。其实在图像中,可以通过PS技术来实现这种效果,但是PS需要精细复杂的调整,最新提出的Anydoor算法能够无脑实现这种操作。它可以完成零样本图像自定义相关任务,诸如换装,移动物体等操作。随着扩散模型的兴起,图像生成领域出现了多种玩法,对于图像编辑来说,ControlNet已经能够根据mask和prompt在原图像的某些区域进行生图,但是这种生图只能针对不在训练数据内的新图象,泛化性较差。

2023-12-27 17:49:29 1033 3

原创 图像生成:GRL

伴随生成式模型的崛起,图像恢复超分也逐渐成为图生图相关任务pipeline中重要的一环。比如在Stable Diffusion Webui中集成的SwinIR和ESRGAN。本文介绍最新的图像恢复算法GRL(Efficient and Explicit Modelling of Image Hierarchies for Image Restoration)。文章提出一种全新的机制,在全局、区域和局部范围内高效、明确地对图像层次结构进行建模,从而完成图像恢复。文章首先分析了自然图像的两个重要属性 ——

2023-12-20 18:07:59 1146

原创 图像处理:动态模糊

动态模糊在实际拍照场景中出现较多,主要造成原因是在拍摄瞬间相机的突然抖动形成的,在数据增强方案中可以通过模拟这种退化来使模型适用于这种图片(在该类图片中产生更好的效果)。本文分别提供了用opencv,torch,numpy实现的code。

2023-12-12 16:09:45 686

原创 图像生成:SD LoRA模型详解

相信在SD的生图过程中,我们对LoRA都不陌生,但是它的模型文件是什么样子的,保存的东西是什么,如何起作用的,接下来将详细探讨一下。

2023-11-29 20:08:05 3902

原创 图像生成:Consistency Models(一致性模型)

扩散模型在图像、音频和视频生成方面取得了重大突破,但它们依赖于迭代生成过程,导致采样速度较慢,限制了其实时应用的潜力。为了克服这一限制,我们提出了一致性模型,这是一种新的生成模型家族,可以在没有对抗性训练的情况下实现高样本质量。它们在设计上支持快速的一步生成,同时仍然允许少步采样以换取样本质量的计算。它们还支持零样本数据编辑,如图像修补、着色和超分辨率,而不需要对这些任务进行明确的训练。在SD中,

2023-11-28 18:12:50 2101 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除