自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

读书郎

路漫漫其修远兮,吾将上下而求索

  • 博客(251)
  • 收藏
  • 关注

原创 An Image is Worth More Than 16×16 Patches: Exploring Transformers on Individual Pixels

这项工作没有引入新的方法。相反,我们提出了一个有趣的发现,质疑归纳偏差的必要性——现代计算机视觉架构中的局部性。具体来说,我们发现 vanilla Transformers 可以通过直接将每个单独的像素视为令牌并实现高性能结果来操作。这与 Vision Transformer 中流行的设计有很大不同,后者将 ConvNets 的归纳偏差维持到局部邻域(例如,将每个 16×16 补丁视为令牌)。

2024-09-05 11:13:41 843

原创 VISION TRANSFORMER ADAPTER FORDENSE PREDICTIONS

这项工作研究了一种简单而强大的视觉转换器 (ViT) 密集预测任务适配器。与最近将视觉特定归纳偏差纳入其架构的高级变体不同,由于先前的假设较弱,普通 ViT 在密集预测上表现不佳。为了解决这个问题,我们提出了 ViT-Adapter,它允许普通 ViT 实现与视觉特定转换器相当的性能。具体来说,我们的框架中的主干是一个简单的 ViT,可以从大规模多模态数据中学习强大的表示。在转移到下游任务时,使用无预训练的适配器将与图像相关的归纳偏差引入模型中,使其适用于这些任务。

2024-09-04 16:24:43 1448

原创 HOW DO VISION TRANSFORMERS WORK

MSA 改善模型泛化能力MSA 不仅提高了模型的准确性,还通过平滑损失景观来提高泛化能力。损失景观的平坦化使得模型更容易优化,表现为更好的泛化能力。MSA 和卷积神经网络 (CNNs) 的互补性MSA 和卷积层(Convs)表现出相反的行为。MSA 作为低通滤波器减少高频信号,而卷积层则作为高通滤波器放大高频信号。因此,MSA 和卷积层是互补的,且可以在模型中结合使用,以提高性能。多阶段神经网络的阶段行为多阶段神经网络的行为类似于串联的小型模型,特别是阶段末尾的 MSA 对预测性能起关键作用。

2024-09-04 11:49:19 1377

原创 Fast Vision Transformers with HiLo Attention

Vision Transformers (ViTs) 引发了计算机视觉的最新和重大突破。它们的高效设计主要是由计算复杂度的间接度量来指导的,即FLOPs,然而与吞吐量等直接度量有明显的差距。因此,我们建议在目标平台上使用直接速度评估作为高效 ViT 设计原则。特别是,我们引入了 LITv2,这是一种简单有效的 ViT,它在一系列不同模型大小上以更快的速度优于现有的最先进方法。LITv2 的核心是一种新颖的自注意力机制,我们称之为 HiLo。

2024-09-03 15:53:28 957

原创 Swin Transformer: Hierarchical Vision Transformer using Shifted Windows

本文提出了一种新的视觉转换器Swin Transformer,它可以作为计算机视觉的通用主干。将 Transformer 从语言适应视觉的挑战源于两个域之间的差异,例如视觉实体的规模变化很大,以及与文本中的单词相比,图像中像素的高分辨率。为了解决这些差异,我们提出了一个分层 Transformer,其表示是使用 Shifted 窗口计算的。移位窗口方案通过将自注意力计算限制在不重叠的局部窗口上,同时允许跨窗口连接,从而带来了更高的效率。

2024-09-02 21:54:07 1247

原创 AN IMAGE IS WORTH 16X16 WORDS: TRANSFORMERS FOR IMAGE RECOGNITION AT SCALE

虽然 Transformer 架构已成为自然语言处理任务的事实标准,但它在计算机视觉中的应用仍然有限。在视觉中,注意力要么与卷积网络结合使用,要么用于替换卷积网络的某些组件,同时保持其整体结构。我们表明,这种对 CNN 的依赖是不必要的,直接应用于图像块序列的纯转换器可以在图像分类任务中表现良好。

2024-09-02 15:47:52 932

原创 Attention Is All You Need

主要的序列转导模型基于复杂的循环或卷积神经网络,其中包括编码器和解码器。性能最好的模型还通过注意力机制连接编码器和解码器。我们提出了一种新的简单的网络架构 Transformer,它完全基于注意力机制,完全摒弃了递归和卷积。对两个机器翻译任务的实验表明,这些模型在质量上更优越,同时更可并行化,并且需要的训练时间显着减少。我们的模型在 WMT 2014 英德翻译任务上达到了 28.4 BLEU,比现有的最佳结果(包括集成)提高了 2 BLEU 以上。

2024-09-02 10:37:26 1135

原创 Attention Is Not What You Need: Revisiting Multi-Instance Learning for Whole Slide Image Classificat

尽管基于注意力的多实例学习算法在幻灯片级全幻灯片图像 (whole slide image,WSI) 分类任务中取得了令人印象深刻的表现,但它们容易错误地关注不相关的模式,例如染色条件和组织形态,导致不正确的补丁级预测和不可靠的可解释性。此外,这些基于注意力的 MIL(Multi-Instance Learning) 算法往往专注于显着实例,难以识别难以分类的实例。在本文中,我们首先证明基于注意力的 WSI 分类方法不遵守标准的 MIL 假设。

2024-08-29 16:16:28 802

原创 Monkey : Image Resolution and Text Label Are Important Things for Large Multi-modal Models

大型多模态模型 (LMM) 在视觉语言任务中显示出了希望,但在高分辨率输入和详细的场景理解方面遇到了困难。为了应对这些挑战,我们引入了Monkey来增强LMM能力。首先,Monkey 通过将输入图像划分为统一的补丁来处理输入图像,每个补丁都匹配训练良好的视觉编码器的原始训练中使用的大小(例如 448×448)。Monkey配备了每个补丁的单个适配器,可以处理高达1344×896像素的更高分辨率,从而详细捕获复杂的视觉信息。其次,它采用多级描述生成方法,丰富了场景-对象关联的上下文。

2024-08-27 16:21:30 924

原创 Flamingo中的Perceiver Resampler

在 Flamingo 模型中,Perceiver Resampler 是一个关键组件,用于将输入的多模态数据(如图像和文本)转化为适合Transformer处理的表示形式。Perceiver Resampler 使用了类似于 Perceiver 模型的架构,利用交替的注意力机制,将输入的高维数据映射到一组固定大小的潜在向量(latent vectors)。这种机制使得Flamingo模型能够在保持计算效率的同时,有效处理图像和文本的多模态输入,适应各种下游任务,如视觉问答、图像描述生成等。

2024-08-27 15:31:24 471

原创 Mini-Monkey: Multi-Scale Adaptive Cropping for Multimodal Large Language Models

最近,人们对增强多模态大型语言模型 (MLLM) 处理高分辨率图像的能力产生了浓厚的兴趣。大多数现有方法侧重于采用裁剪策略来提高多模态大型语言模型理解图像细节的能力。然而,这种裁剪操作不可避免地会导致对象和连接区域的分割,这削弱了MLLM识别小或不规则形状的对象或文本的能力。这个问题在轻量级 MLLM 中尤为明显。为了解决这个问题,我们提出了Mini-Monkey,这是一种轻量级的MLLM,它结合了一种称为多尺度自适应裁剪策略(MSAC)的即插即用方法。

2024-08-27 11:42:48 1145

原创 Improved Baselines with Visual Instruction Tuning

大型多模态模型 (LMM) 最近在视觉指令调整方面显示出令人鼓舞的进展。在本文中,我们提出了第一个系统研究来研究 LLAVA 框架下受控设置下 LMM 的设计选择。我们表明,LLAVA 中的全连接视觉语言连接器非常强大和数据效率。通过对LLAVA进行简单的修改,即使用带有MLP投影的CLIP-ViT-L-336px和添加具有响应格式提示的面向学术任务的VQA数据,我们建立了更强的基线,可以在11个基准测试中实现最先进的性能。

2024-08-26 14:54:07 861

原创 线性层与MLP层

一个线性层相当于一个没有激活函数的MLP的一层。如果你把MLP看作是多个“线性层 + 激活函数”的堆叠,那么一个线性层相当于去掉激活函数的MLP层。

2024-08-25 21:41:04 177

原创 When Do We Not Need Larger Vision Models?

扩大视觉模型的大小一直是获得更强大视觉表示的事实标准。在这项工作中,我们讨论了不需要更大视觉模型的点。首先,我们展示了在尺度(S2)上缩放的能力,其中预先训练的冻结较小的视觉模型(如ViT-B或ViT-L),在多个图像尺度上运行,可以在分类、分割、深度估计、多模态LLM (MLLM)基准和机器人操作方面优于更大的模型(如ViT-H或ViT-G)。值得注意的是,S2 在 V∗ 基准上对 MLLM 的详细理解方面实现了最先进的性能,超过了 GPT-4V 等模型。

2024-08-22 11:15:44 755

原创 LLaVA-NeXT-Interleave: Tackling Multi-image, Video, and 3D in Large Multimodal Models

将不同任务的数据格式统一为interleave的图像-文本格式,使得模型能够处理不同场景中的多种任务,如多图像任务、视频任务和3D任务。构造了新的的训练数据集M4-Instruct,包含1177.6k个样本,覆盖了14个任务和41个数据集,支持多图像、视频、3D和单图像任务。LLAVA-NeXT-Interleave在多图像、视频和3D任务中取得了领先的性能,同时保持了单图像任务的表现。通过联合训练多个任务,该模型展示了在不同设置和模式之间任务转移的新能力。

2024-08-21 10:29:08 1085

原创 Fine-tuning与 Instruction Tuning

Instruction Tuning 是一种机器学习技术,特别是在自然语言处理 (NLP) 领域中,用于优化模型的行为,使其能够更好地遵循自然语言指令。它是在预训练和微调之后的一种技术,以进一步提升模型在实际应用中的表现。现代 NLP 模型通常经历三个阶段:预训练(Pretraining):模型在大规模未标注的数据上进行训练,学习语言的基本结构和语义。微调(Fine-tuning):模型在特定任务的数据集上进行调整,以提高在该任务上的性能。

2024-08-20 18:02:01 510

原创 LLaVA-OneVision: Easy Visual Task Transfer

新的训练策略,先在但图上进行训练,在扩展到多图和视频。并在最后发现了处理新任务的能力。

2024-08-20 10:49:33 673

原创 AttributeError: ‘TransformerDecoderLayerOptimal‘ object has no attribute ‘self_attn‘

【代码】AttributeError: 'TransformerDecoderLayerOptimal' object has no attribute 'self_attn'

2024-05-27 21:27:23 284

原创 添加了ssh keys还是无法git push

ssh keys的正确设置只有git协议才可以使用ssh-keys文件,从而实现一键git push。https协议只支持账户密码输入。8月13日以后,git不再支持https协议。

2024-03-24 17:59:20 392 1

原创 从远程仓库获取最新代码合并到本地分支

不推荐这种方式,因为是直接合并,无法提前处理冲突。

2024-03-21 09:21:18 654

原创 dataframe的操作中concat和merge有什么区别

主要参数:axis(定义沿哪个轴进行合并),join(如何处理不同 DataFrame 的索引,是取交集(inner)还是并集(outer))。索引对齐:concat 在合并时会根据索引对齐数据,可以处理索引不完全匹配的情况。主要参数:on(指定合并的键),how(定义如何合并,如 inner, outer, left, right)。使用 concat 当你需要简单地沿一个轴堆叠数据时(例如,将两个数据集的相同列或行堆叠在一起)。灵活性:相对来说,concat 更加灵活,支持在不同的轴上进行数据堆叠。

2024-01-10 10:50:50 576

原创 error: Microsoft Visual C++ 14.0 is required. Get it with “Microsoft Visual C++ Build Tools”: https:

出现报错(error: Microsoft Visual C++ 14.0 is required. Get it with “Microsoft Visual C++ Build Tools”: https://visualstudio.microsoft.com/downloads/)下载whl包什么的和python setup.py install,都不行.或者其他包类似,出现问题,看看官网有没有其他方法。别的地方安装VC的,太麻烦了,不想鼓捣.

2024-01-07 11:20:36 396

原创 ERROR: No matching distribution found for torch==1.12.0+cu113

好像不少用清华源的会出现这个问题。

2023-12-28 10:37:57 1962

原创 pycharm连接服务器可以运行,但是在命令行终端中无法运行,找不到某个本地的包或者文件夹

pycharm 可以执行但是命令行却无法运行。在某个.py文件引入了其它目录下的.py文件。但是这个在pycharm 中运行是没有问题的,但是放到命令行运行就会得到错误。

2023-12-19 10:36:47 1107

原创 【PyCharm】 : Cannot open Local Terminal Failed to start [powershell.exe] in C:\Users\

但是后来我想了想,我是用pycharm的控制端打开过jupyter notebook后出现了这种情况,然把左边侧栏Project中关于“localhost:8888”或者其他端口号相关的删去就可以了。

2023-12-16 20:32:17 508

原创 $‘\r‘: command not found的解决方法

出现这样的错误,是因为Shell脚本在Windows系统编写时,每行结尾是\r\n,而在Linux系统中行每行结尾是\n,所以在Linux系统中运行脚本时,会认为\r是一个字符,导致运行错误。

2023-12-04 14:12:06 359

原创 clone报错fatal: unable to access ‘https://github.com/...‘: Failed to connect to github.com port

【代码】clone报错fatal: unable to access ‘https://github.com/...‘: Failed to connect to github.com port。

2023-11-17 10:31:38 586

原创 Pycharm 日常方便工具和快捷键

打开项目中的文件,函数默认是展开的,看起来非常不方便,如果把代码全部折叠起来,看着就一目了然了。快捷键:ctrl+shift+ - 就折叠了代码。

2023-11-16 10:46:38 102

原创 问题解决Sign in failed. Reason: Request signInInitiate failed with message: connect ETIMEDOUT 20.205.243

Sign in failed. Reason: Request signInInitiate failed with message: connect ETIMEDOUT 20.205.243设置网址:,已设置为允许在安装对应版本。

2023-11-13 15:03:30 3713

原创 如何在ModelScope社区魔搭下载所需的模型

本篇文章介绍如何在ModelScope社区下载所需的模型。若您需要在ModelScope平台上有感兴趣的模型并希望能下载至本地,则ModelScope提供了多种下载模型的方式。

2023-11-12 19:13:02 8233 3

原创 ERROR: Could not build wheels for sentence_transformers, which is required to install pyproject.toml

解决办法,更新wheel和pip。

2023-11-11 23:00:10 447

原创 ubuntu wget ERROR 403: Forbidden 错误

wget -U "浏览器的useragent" 下载地址

2023-07-20 17:14:03 1181

原创 python形成的xmind,xmind软件打不开报错

将Python保存形成的xmind文件导入腾讯在线文档或者processon,然后导出本地就可以用xmind打开了

2023-06-28 11:13:16 634

原创 ChatGPT提示工程课程,吴恩达&OpenAI

可以使用一些格式化的输出。

2023-05-22 11:49:52 433

原创 python单引号,双引号,三引号

三引号(‘’’ 或 “”"):它们可以用来表示多行字符串或包含换行符的字符串。需要注意的是,单引号、双引号和三引号的使用方式在功能上是等效的,选择使用哪种形式完全取决于个人偏好和具体的编码规范。使用三引号可以更方便地定义包含多行文本的字符串,例如多行注释、长文本块或函数文档字符串(docstrings)。在Python中,可以使用单引号(‘)、双引号(")和三引号(’‘’ 或 “”")来表示字符串。单引号(')和双引号("):它们可以用来表示简单的字符串,可以在代码中直接使用。

2023-05-21 17:40:16 2359

原创 git在项目已存在的情况下拉取某个文件

切换到本地该分支后如果是真个文件夹,文件夹名字为a。

2023-05-06 11:30:27 490

原创 jupyter notebook 打开指定路径文件

【代码】jupyter notebook 打开指定路径文件。

2023-04-25 22:45:44 575 1

原创 render和redirect区别

ender 返回页面内容(渲染变量到模板中),并且没有发送第二次请求,也可能是导致数据消失的原因redirect 发送了第二次请求,是个跳转函数,而且会返回302的状态码

2023-03-05 21:01:10 462

原创 Pip install 和Conda install 总结

一般原则,在新环境中,如果装多个packages,既用到conda,又用到pip,那就先conda 的都装好,再pip,如果能用一种装到底,就不要来回换着用。conda解决依赖的问题很弱,环境包多了以后经常要解决依赖几分钟到十几分钟。我个人感觉比较好的实践是conda创建虚拟环境,装torch/tensorflow等比较难装的包,基础环境配好以后,后面装包一律用pip。

2023-03-04 21:46:42 1256

原创 Pycharm中的Virtualenv Environment、Conda Environment

# 总结我以前创建项目都是在Virtualenv 下创建解析器,这个时候最好用conda install或者pip去安装包,因为如果用pycharm中的加号全装不会同步到环境中。(个人理解)

2023-03-02 22:04:46 2261 2

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除