自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(27)
  • 问答 (1)
  • 收藏
  • 关注

原创 MM-LLMs: Recent Advances in MultiModal Large Language Models论文解读

本文综述了近年来多模态大语言模型(MM-LLMs)的发展情况,并介绍了成本效益高的训练策略。这些模型不仅保留了传统大语言模型的推理和决策能力,还能够支持多种多模态任务。作者首先概述了模型架构和训练流程的设计方案,然后对126个具有不同设计方案的MM-LLMs进行了分类总结,并分析了它们在主流基准测试中的表现。此外,文章还提供了增强MM-LLMs效果的关键训练技巧,并探讨了MM-LLMs未来的研究方向。该综述旨在促进MM-LLMs领域的进一步发展。论文方法。

2025-02-19 19:04:44 1207

原创 AI进展小结20250214

智能体分类:角色扮演、教育学习、图像生成、文案创作、职场办公、行业专家、生活助手、趣味休闲、其他。2 交互方式:对话;3 功能提供:智能体。

2025-02-14 17:34:43 753

原创 新论文流程记录

DINO 1.5DINO-XSAMSAM-2。

2025-01-27 10:30:13 148

原创 YOLO系列代码

Test-Time AugmentationTTA (Test Time Augmentation)是指在test过程中进行数据增强。 其思想非常简单,就是在评测阶段,给每个输入进行多种数据增广变换,将一个输入变成多个输入,然后再merge起来一起输出,形成一种ensemble的效果,可以用来提点。 参考:https://zhuanlan.zhihu.com/p/131539596

2025-01-17 16:10:47 373

原创 Deformable Detr回顾

为解决DETR attention的计算量大导致收敛速度慢、小目标检测效果差的问题:提出了Deformable Attention,其注意力模块只关注一个query周围的少量关键采样点集,采样点的位置并非固定,而是可学习的(如左图所示,DETR的query要和其他所有的key计算相似度计算量为token的平方, 而Deformable DETR只关注周围少量的key,大大减少了计算量,提高了收敛速度),并采用了多尺度策略提高了小物体的检测性能。

2025-01-17 11:33:14 828

原创 Real-Time DEtection TRansformer (RT-DETR)

然而,由于分类得分和位置置信度的分布不一致,一些预测框具有高分类得分,但不接近GT框,这导致选择了分类得分高、IoU得分低的框,而分类得分低、IoU分数高的框被丢弃。这会削弱探测器的性能。为了解决这个问题,作者提出了IoU-Aware查询选择,通过约束模型在训练期间为具有高IoU分数的特征产生高分类分数,并为具有低IoU得分的特征产生低分类分数。:每轮选取置信度最大的 Bounding Box ,接着关注所有剩下的 BBox 中与选取的 BBox 有着高重叠(IoU)的,它们将在这一轮被抑制。

2025-01-17 10:09:32 1177

原创 SWIN模型回顾

其中Φ(x)表示高斯分布的累积概率分布。公式为:GELU(x)=x∗Φ(x)扩展:swish激活函数。

2025-01-16 19:50:24 197

原创 DETRs with Collaborative Hybrid Assignments Training论文阅读与代码

在这篇论文中,作者观察到在DETR中将过少的 Query 分配为正样本,采用一对一的集合匹配,会导致对编码器输出的监督稀疏,严重损害编码器的区分特征学习,反之亦然,也会影响解码器中的注意力学习。为了缓解这个问题,作者提出了一种新颖的协同混合分配训练方案,名为Co-DETR,以从多样的标签分配方式中学习更高效、更有效的基于DETR的检测器。这种新的训练方案可以通过训练多个并行辅助 Head ,以一对多的标签分配方式(如ATSS和Faster RCNN)进行监督,轻松增强端到端检测器中编码器的学习能力。

2025-01-16 15:50:04 1024 2

原创 ChatGPTs和各类Copilot

文心一言:百度出品的 AI 对话产品,定位为智能伙伴,能写文案、想点子,陪聊天、答疑解惑,与。通义千问:由阿里云开发的聊天机器人,能够与人交互、回答问题及协作创作,与钉钉有结合应用。抖音豆包:字节旗下产品,字节在 AI 领域有较大投入和决心,如推出多种相关产品和应用。腾讯混元:相对较为低调,公司文化特点及目前尚未有明确亮点可能是其受到关注较少的原因。需要注意的是,这些 AI 工具的性能和擅长领域可能会随着不断的更新和优化而发生变化。”,可以一口气读完二十万字的小说,还会上网冲浪。

2024-12-26 20:48:10 1052

原创 Pytorch 并行训练

master_addr:master节点的ip地址,也就是0号主机的IP地址,该参数是为了让 其他节点 知道0号节点的位,来将自己训练的参数传送过去处理。-master_port:master节点的port号,在不同的节点上master_addr和master_port的设置是一样的,用来进行通信。LOCAL_RANK:os.environ[“LOCAL_RANK”]每张显卡在自己主机中的序号,从0开始。nnodes:节点的数量,通常一个节点对应一个主机,方便记忆,直接表述为主机。

2024-12-26 14:39:20 239

原创 大模型基础知识--关于微调

它仅更新模型中的部分参数,显著降低训练时间和成本,适用于计算资源有限的情况。PEFT技术包括Prefix Tuning、Prompt Tuning、Adapter Tuning等多种方法,可根据任务和模型需求灵活选择。:一种利用人类反馈作为奖励信号来训练强化学习模型的方法,旨在提升模型生成文本等内容的质量,使其更符合人类偏好。我们以前常见的如下图的微调方式,是instructGPT的微调过程,其在GPT-3基础上微调。类似,即使用标注过的数据来调整预训练模型的参数,使其更好地适应特定任务或领域。

2024-12-24 16:03:50 1102

原创 GLIP算法

起来,通过实验证明了没有额外提示的grounding任务和detection任务其实是一样的,从而使模型可以学习两者的数据,训练出了更好的grounding模型(也可以说是detection模型)。第二,GLIP采用了一种自学习方法,即通过教师模型标注信息,再让学生模型进行学习,这样不仅可以利用大量信息而无需手工标注,还可以让学生模型学习到大量语义丰富的信息,超越教师模型的表现。总结一下GLIP的贡献:第一,GLIP将grounding任务和detection任务。网路整理,文末见参考。

2024-11-28 15:17:10 382

原创 算法思路记录

因为python中没有使用push而是使用直接+的方式,天然避免了pop。深度优先的函数入口参数为 当前index 当前状态(多个)不同的方案写的细节:关于push/pop。参考组合总数I、组合总数II等题目。

2024-09-07 16:35:02 232

原创 算法问题整理(十)

网络资料整理,若侵则删。

2024-09-03 19:10:46 240

原创 算法问题整理(九)

(若侵则删)

2024-08-19 20:33:24 527

原创 算法问题整理(八)

(若侵则删)

2024-08-19 14:00:48 254

原创 算法问题整理(七)

参考:

2024-08-16 20:36:32 826

原创 算法问题整理(六)

网络资料整理个人学习,感谢各位大神!(若侵则删)

2024-08-16 20:15:16 189

原创 算法问题整理(五)

(若侵则删)机器学习,参考。

2024-08-04 13:51:31 480

原创 算法问题整理(四)

外推性是指大模型在训练时和预测时的输入长度不一致,导致模型的泛化能力下降的问题。例如,如果一个模型在训练时只使用了512个 token 的文本,那么在预测时如果输入超过512个 token,模型可能无法正确处理。这就限制了大模型在处理长文本或多轮对话等任务时的效果。简单来说 RoPE 的 self-attention 操作的流程是1.对于 token 序列中的每个词嵌入向量,首先计算其对应的 query 和 key 向量2.然后对每个 token 位置都计算对应的旋转位置编码。

2024-08-01 23:54:21 794

原创 算法问题整理(三)

4)得到预测结果以后,将object predictions和ground truth box之间通过匈牙利算法进行二分匹配:假如有K个目标,那么100个object predictions中就会有K个能够匹配到这K个ground truth,其他的都会和“no object”匹配成功,使其在理论上每个object query都有唯一匹配的目标,不会存在重叠,所以DETR不需要nms进行后处理。最终预测得到的shape应该为[N, 100, C],N为Batch Num,100个目标,

2024-07-28 19:57:30 1083

原创 算法问题整理(二)

参考:

2024-07-23 15:11:25 276

原创 算法问题整理(一)

全局信息捕捉:通过自注意力机制,Transformer能够同时关注序列中的所有位置,从而捕捉全局信息。计算复杂度:Transformer的计算复杂度较高,特别是当序列长度较长时,其计算量会显著增加。长期依赖捕捉:LSTM通过门控机制能够有效捕捉序列中的长期依赖关系,特别适用于处理长序列数据。并行化能力:由于LSTM的循环结构,其并行化能力相对较弱,限制了模型的训练速度。并行化能力强:Transformer的并行化能力非常强,可以显著提高模型的训练速度。

2024-07-20 19:34:44 966

原创 Linux基础-git常用操作

网上大神的教程很多,我只是把我常用的操作整理一下,可能会更简洁一些,也方便大家直接使用。创建完之后,如何配置网上教程很多,这里只记录一下最主要的命令~

2024-04-26 17:02:13 196 2

原创 Linux基础-ffmpeg常用的视频操作命令

vf 后跟 vflip 是上下翻转;hflip是水平翻转;transpose=1 顺时针转90度;transpose=2 逆时针转90度;更全的ffmpeg相关操作后续补充,本文记录几个常用的命令,方便查阅。-ss一定要放在-i之前;时间格式为xx:yy:zz。-r 后跟着需要的视频帧率。

2024-04-26 16:47:13 423 1

原创 Linux基础操作-使用vnc

注意kill后面有空格,查询端口号也可以使用比如ps aux|grep vnc命令也可以,大家随意~要想真的用起来,你自己的电脑也需要安装vnc的客户端,并且在客户端配置:IP:端口号,才可以使用。网上大神的教程很多,我只是把我常用的操作整理一下,可能会更简洁一些,也方便大家直接使用。说实话,上面的有些可能不需要,我先都放这里了,后面有时间我再修正一下~只执行vncserver也可以,但是建议加上后面的尺寸设置。

2024-04-25 20:51:35 833 2

原创 Linux基础操作-添加用户

如果此时你发现你的账号进入的sh环境,无法使用tab健进行路径补全,执行 sudo vim /etc/passwd 将自己用户名对应的/bin/sh改为/bin/bash即可。参数-m 会自动帮你创建用户的家目录,在/home/下,如果你想换个路径,可以使用: -d /path1/path2。在“root ALL=(ALL)ALL”这一行下面,加入一行 “usrname ALL=(ALL) ALL”,并保存。网上大神的教程很多,我只是把我常用的操作整理一下,可能会更简洁一些,也方便大家直接使用。

2024-04-25 20:36:46 521 1

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除