WiSirius
码龄5年
关注
提问 私信
  • 博客:51,692
    视频:4,016
    55,708
    总访问量
  • 28
    原创
  • 33,323
    排名
  • 3,638
    粉丝
  • 学习成就
IP属地以运营商信息为准,境内显示到省(区、市),境外显示到国家(地区)
IP 属地:北京市
  • 加入CSDN时间: 2020-01-14
博客简介:

WiSirius的博客

查看详细资料
  • 原力等级
    成就
    当前等级
    4
    当前总分
    690
    当月
    34
个人成就
  • 获得552次点赞
  • 内容获得13次评论
  • 获得750次收藏
  • 代码片获得582次分享
创作历程
  • 23篇
    2024年
  • 5篇
    2023年
成就勋章
TA的专栏
  • 多模态
    9篇
  • 图像生成
    8篇
  • CV Method
    4篇
  • 图像处理
    5篇
  • AIGC应用
    2篇
兴趣领域 设置
  • 人工智能
    深度学习神经网络图像处理数据分析stable diffusion
  • 前沿技术
    AIGC
创作活动更多

AI大模型如何赋能电商行业,引领变革?

如何使用AI技术实现购物推荐、会员分类、商品定价等方面的创新应用?如何运用AI技术提高电商平台的销售效率和用户体验呢?欢迎分享您的看法

175人参与 去创作
  • 最近
  • 文章
  • 代码仓
  • 资源
  • 问答
  • 帖子
  • 视频
  • 课程
  • 关注/订阅/互动
  • 收藏
搜TA的内容
搜索 取消

多模态:MLLM模态对齐方法

目前多模态模型席卷AI领域,最近也在做一些对齐的工作,记录一下目前主流的模态对齐方法。想详细了解的也可以看看下面的综述论文。最近的代表性MLLM分为四类:(1)将LLM作为多模态特征的直接处理器;(2)利用多模态感知器的MLLM来处理多模态特征;(3)将LLM作为处理多模态特征的工具;(4)在特定格式的数据上学习,赋予LLM适应额外模态的能力本文主要介绍目前几个完成交互的经典方法。
原创
发布博客 2024.10.14 ·
1007 阅读 ·
12 点赞 ·
0 评论 ·
10 收藏

多模态:Florence2论文详解

Florence-2已经放出一段时间了,是一种新型的计算机视觉基础模型的统一、基于提示表征适用各种视觉任务或视觉语言任务。Florence-2设计是根据文本提示作为任务指令并以文本形式生成描述的结果,无论是描述、目标检测、grounding还是分割。最近在尝试用florence-2用于自己的任务,写个博客详细了解下florence2的具体结构和策略。多模态的出现打通了NLP和CV之间的壁垒,,先进模型展现出了对跨领域和任务的广泛知识的适应能力,只需简单的指令即可。
原创
发布博客 2024.09.29 ·
982 阅读 ·
22 点赞 ·
0 评论 ·
9 收藏

多模态:DetCLIPv3解析

目前多模态目标检测逐渐成为检测领域的主要发力方向,从最初的检测大模型grounding dino, 到YOLO-world, 本文记录最新的多模态目标检测论文DetCLIPv3现有的开放词汇表目标检测器(OVD)通常需要用户提供预定义的类别集,这在实际应用场景中限制了它们的使用。与现有方法不同,人类认知能够以分层的方式理解不同粒度的对象,这在当前的OVD系统中尚未实现。为了解决这些限制,作者提出了 DetCLIPv3,这是一种新型的目标检测器,能够扩展开放词汇表目标检测的范围。
原创
发布博客 2024.09.04 ·
918 阅读 ·
10 点赞 ·
0 评论 ·
13 收藏

多模态:Seed-story故事生成

伴随图像生成和文本生成的迅速发展,多模态故事生成以交错的方式生成叙事文本和生动形象为特征,已成为一种有价值的故事生成方式具有广泛应用的实际任务。该任务的主要难点在于文本和图像之间复杂的相互作用,以及生成连贯的且上下文相关的长序列的能力。github:文章提出Seed-story,一种利用多模态大语言模型生成扩展的多模态故事。
原创
发布博客 2024.08.12 ·
962 阅读 ·
13 点赞 ·
0 评论 ·
18 收藏

CV Method:YOLOv10 vs YOLOv8

YOLOv10已经开源一段时间了,经过我实际使用测试,也确实性能更好一些,YOLOv10基于v8代码框架改进,so 之前v8可用的大部分trick在v10上可直接代码移植过去(我自己尝试了下,大部分code不需要改动,直接实现装备继承)。本文主要比较一下v10 和 v8之间的区别和改进。yolov10最重要的point就是它的 NMS-free 检测功能,我们知道NMS是检测发展中重要的一环,yolov10通过one-to-onehead实现了不需要NFS的检测模型,这可以有效提升模型的执行速度。
原创
发布博客 2024.07.24 ·
2120 阅读 ·
8 点赞 ·
0 评论 ·
28 收藏

多模态:Nougat详解

科学知识主要存储在书籍和科学期刊中,通常以PDF的形式。然而PDF格式会导致语义信息的损失,特别是对于数学表达式。文章提出Nougat,一种视觉transformer模型,它执行OCR任务,用于将科学文档处理成标记语言。Nougat尝试用一个端到端的方式来实现过去无数小模型+策略配合的结果。推理速度慢。虽然过去的pipeline设计多个模型,但每个模型都非常轻量化,组合起来的参数量甚至不到Nougat的1/10。定制化难。数据集构建成本高。(但是nougat的数据工程确实也很惊艳,非常值得学习!!
原创
发布博客 2024.07.09 ·
1170 阅读 ·
19 点赞 ·
0 评论 ·
25 收藏

多模态-大模型:MLLM综述(适用初学)

paper近年来,以GPT-4V为代表的多模态大语言模型(Multimodal Large Language Model, MLLM)成为一个新兴的研究热点。它使用强大的大型语言模型(llm)作为大脑来执行多模态任务。其表现出令人惊讶的突发能力,如基于图像和无ocr的数学推理编写故事,在传统的多模态方法中很少见。文章跟踪并总结MLMM的最新进展。论文讨论关键技术和应用,包括多模态指令调优(M-IT)、多模态上下文学习(M-ICL)、多模态思维链(M-CoT)和LLM辅助视觉推理(LAVR)。
原创
发布博客 2024.06.24 ·
1960 阅读 ·
24 点赞 ·
0 评论 ·
34 收藏

CV Method:超全学习率策略总结

在深度学习中,学习率对模型的训练过程起着很重要的作用,影响着损失函数的变化速度。学习率越低,可以确保不会错过任何局部最小值,但是也意味着将花费更长的训练时间来进行收敛,特别是陷入局部最优的情况下。学习率越高,就容易错过全局最小值导致结果不收敛。一般来说,batch-size的大小一般与学习率的大小成正比。batch-size越大一般意味着算法收敛方向的置信度越大,也可以选择较大的学习率来加快收敛速度。而小的batch-size规律性较差,需要小的学习率保证不出错。
原创
发布博客 2024.06.06 ·
819 阅读 ·
12 点赞 ·
0 评论 ·
24 收藏

CV Method:经典CNN Backbone总结

Backbone作为一切深度学习任务的基础,不论是理论还是实际应用都有重要的意义,本文针对经典Backbone进行总结,这些Backbone也是面试常见的问题,卷积网络主要以ResNet和其各种变体为主。本文主要介绍这些年比较经典的backbone的一些优势和特点,目前主流的backbone都以transformer为框架进行迭代,不过CNN的backbone是基础中的基础,能很好的帮助初学者理解相关理论和设计理念,也是必须要掌握的技术。
原创
发布博客 2024.05.30 ·
1002 阅读 ·
15 点赞 ·
0 评论 ·
15 收藏

图像处理:文档矫正DocTr++

这段时间一直在搞文档矫正相关实验,阅读了大量相关论文,今天来记录一篇目前比较经典,实用性较好的方法,doctr++Doctr++除了提出一种新的architecture外,most importantly,提出了一种新的数据处理方式,解决了以前文档矫正只能处理带有边界信息的完整文档,文章通过数据处理定义了三种类型的训练数据。图1展示了三类常见的形变文档图像:(a) 包含完整文档边界,(b) 包含部分文档边界,(c ) 不包含文档边界。
原创
发布博客 2024.05.21 ·
906 阅读 ·
25 点赞 ·
0 评论 ·
14 收藏

图像处理:图像噪声添加

本文主要介绍几种添加图像噪声的方法,用于数据增强等操作。目前主流的噪声添加就这么几种,最常用的是高斯和泊松,在数据增强中还是有很大帮助的。
原创
发布博客 2024.05.08 ·
3668 阅读 ·
8 点赞 ·
2 评论 ·
41 收藏

CV method:最新Backbone---TransNeXt

近几年,Vision Transformer(ViT)已成为各种CV任务的热门Backbone架构,也算是Transformer在CV领域的经典架构。注意力机制可以有效利用全局信息,获取每个像素间的相关性。但也由于这一特性,其平方复杂度和高内存消耗而面临挑战,这限制了其在高分辨率图像特征上的应用。作者基于生物模仿视杆细胞视觉设计的Token混合器聚合注意力和一种具有门控通道注意力的通道混合器卷积GLU。另外作者也在新结构中设计了很多最新技术,将它们结合起来,提出TransNeXt。
原创
发布博客 2024.04.17 ·
1328 阅读 ·
22 点赞 ·
0 评论 ·
29 收藏

图像生成:SD lora加载代码详解与实现

SD中lora的加载相信都不陌生,但是大家大多数都是利用SD webUI加载lora,本文主要梳理一下SD webUI中lora加载的代码逻辑。关于lora的原理,可以参考我之前的博客——图像生成:SD LoRA模型详解SD model结构一般分为几个部分,如下:SD webui使用pytorch lightning搭建,了解pl的同学可能知道,模型的相关配置一般都写在yaml文件中,因此其实可以根据yaml文件来判断模型的基本结构params:params:ddconfig:out_ch: 3。
原创
发布博客 2024.04.02 ·
2227 阅读 ·
30 点赞 ·
2 评论 ·
18 收藏

多模态:Vary-toy

Vary的提出让大模型在OCR相关任务的能力有了很大突破,通过提出额外的视觉词汇表模块来弥补单一CLIP编码能力的不足,详情可参考我之前的文章——多模态:Vary。最近Vary的团队开发了一个更小版本的Vary模型——1.8B Vary-toy,与Vary相比,Vary-toy除了小之外,还优化了新视觉词表。解决了原Vary只用新视觉词表做pdf ocr的网络容量浪费,以及吃不到SAM预训练优势的问题。
原创
发布博客 2024.03.19 ·
1210 阅读 ·
24 点赞 ·
0 评论 ·
29 收藏

图像处理:文档图像矫正DocReal

文档图像矫正在图像处理领域属于相对冷门但是很有用的一个任务,这个任务的相关文章还是比较少的,DocReal是2024 WACV的最新文档矫正文章,结合了之前一些技术的亮点,还是值得一看的。DocReal目前code暂未开源这篇文章建议看两个文章作为背景会更容易理解:图像处理:文档图像矫正DDCP文档图像矫正是计算机视觉中的一项重要任务,具有许多实际应用。控制点法(如DDCP)由于其简单高效而备受关注。然而,由于背景噪声和多种变形类型,不准确的控制点预测可能导致不令人满意的性能。
原创
发布博客 2024.03.08 ·
1630 阅读 ·
12 点赞 ·
0 评论 ·
36 收藏

AIGC应用:Face Editor插件使用(面部优化)

之前的文章讲了Stable diffusion的基本使用技巧——SD基本使用技巧,接下来主要介绍一下相关插件的使用。本文介绍Face Editor插件的使用和内部理论逻辑,该插件能够很大程度缓解面部崩坏的问题。感兴趣的同学可以仔细看一下整个pipeline,作者的思路还是挺有意思的。Face Editor插件效果还是很好的,我自己使用的情况还是很好,尤其对于生成的全身图像,脸崩的情况比较多,修复后还是很好的!!!
原创
发布博客 2024.02.27 ·
1132 阅读 ·
9 点赞 ·
0 评论 ·
23 收藏

多模态:YOLO-World详解

YOLO系列检测器已将自己确立为高效实用的工具。然而,它们依赖于预定义和训练的物体类别,这在开放场景中限制了它们的适用性。针对这一限制,作者引入了YOLO-World,这是一种创新的方法,通过视觉语言建模和在大型数据集上的预训练,将YOLO与开集检测能力相结合。具体来说,作者提出了一种新的可重参化的视觉语言路径聚合网络(RepVL-PAN)和区域文本对比损失,以促进视觉和语言信息之间的交互。作者的方法在以零样本方式检测具有很好的效果。
原创
发布博客 2024.02.26 ·
6174 阅读 ·
36 点赞 ·
1 评论 ·
86 收藏

AIGC应用:Stable diffusion webui基本使用技巧

Stable diffusion相信很多技术爱好者都了解,并且也尝试用过,目前在各路开源大佬的支持下,Stable diffusion的生图piepline越来越成熟,同时在各种新技术的加持下,可玩性越来越高。相比我以往的理论性文章,该系列文章主要讲解一下SD web ui的具体使用,以及一些拓展功能的使用,同时对自己应用SD有一个记录。SD webui目前的插件越来越多,玩法也越来越多,后面我会继续更新相关使用技巧和内容。
原创
发布博客 2024.02.20 ·
1548 阅读 ·
32 点赞 ·
1 评论 ·
19 收藏

多模态:CLIP详解

2.8: 首先为今天还在努力学习的人们献上🎆CLIP目前无论在CV领域还是NLP领域都是人尽皆知的,该模型的发布直接带动了整个多模态领域的飞速发展。Open AI提出Contrastive Language-Image Pre-training (CLIP),突破了文本-图像之间的限制。CLIP使用大规模的文本-图像配对预训练,并且可以直接迁移到Imagenet上,完全不需要图像标签微调即可实现zero-shot分类。
原创
发布博客 2024.02.08 ·
4755 阅读 ·
22 点赞 ·
0 评论 ·
72 收藏

CLIP训练过程

发布视频 2024.02.08
加载更多