自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(33)
  • 资源 (1)
  • 收藏
  • 关注

原创 【解决nvcc 和 nvidia-smi不一致问题】

选择runfile,想保留已有driver可以在安装过程取消安装。选择和nvidia-smi一致版本。修改~/.bashrc 环境变量。空格取消安装driver。查看nvcc -V 一致。

2024-10-13 15:24:09 325

原创 BLIP:Bootstrapping Language-Image Pre-training for Unified Vision-Language Understanding and Generat

Wang et al., 2021)使用了从网络中自动收集的图像和替代文本对 {(Iw, Tw)},但这些替代文本(alt-text)通常不能准确描述图像的视觉内容,使其成为噪声较大的信号,不适合用于学习视觉-语言对齐。使用 ViT 更加计算友好。BLIP 旨在设计一个可以同时处理理解和生成任务的模型,并通过引导策略(生成与过滤)优化预训练数据的质量,从而在广泛的视觉-语言任务中取得最先进的性能。最终,将过滤后的图像-文本对与人工标注的图像-文本对相结合,形成一个新的数据集,用于预训练一个新的模型。

2024-10-03 10:07:37 959

原创 使用 LoRA 进行模型微调的步骤

定义一个 LoRA 模块,用于替换 transformer 中的标准线性层,通常在自注意力机制的 query、key 和 value 投影中使用# 定义 LoRA 模块# LoRA 引入了两个额外的矩阵 W_down 和 W_upself.W_down = nn.Linear(input_dim, rank, bias=False) # 低秩降维self.W_up = nn.Linear(rank, output_dim, bias=False) # 低秩升维# 将低秩适配结果加到原始输出上。

2024-09-21 20:47:58 455

原创 SAM 2: Segment Anything in Images and Videos

SAM2是一个用于处理图像和视频分割的统一模型。基于最初的,SAM2 将其能力从静态图像扩展到视频分割。其关键特点在于架构和流媒体记忆,允许实时处理视频并利用之前的帧信息作为参考来提高分割的准确性。SAM2 不仅在图像上表现出色,在视频分割上也显示出更好的交互效率和准确性。**PVS(Prompt-based Video Segmentation)**任务允许在视频的任意帧上向模型提供提示。这些提示可以是正/负点击、边界框或蒙版,旨在定义需要分割的目标对象或细化模型预测的结果。

2024-09-17 21:35:33 871

原创 git push : RPC failed; HTTP 400 curl 22 The requested URL returned error: 400

HTTP 400 curl 22 The requested URL returned error: 400,通常表示你推送的文件大小有问题或与网络相关的问题。如果你有大文件,应该使用 Git LFS(Large File Storage) 来跟踪它们。GitHub 对通过 HTTP 推送的文件大小和仓库大小有一定的限制。你还可以尝试使用 SSH 而不是 HTTPS,因为 SSH 在处理大文件的推送时有时更加可靠。此命令将 Git 的缓存区大小从默认值增大,以防止推送过程中发生超时问题。

2024-09-16 20:08:01 1257

原创 OCR2.0--General OCR Theory

光学字符识别(OCR)是一项广泛应用的技术,它能够从图像中提取字符并将其转换为可编辑格式。虽然OCR-1.0在过去取得了广泛应用,但传统的系统在处理现代复杂任务方面遇到了很多挑战,包括文档、复杂图表以及乐谱等多种文本格式的处理。本文讨论了OCR技术的进化方向,重点介绍了通用OCR理论(General OCR Theory)以及新提出的GOT模型。

2024-09-14 17:20:16 1213

原创 LoRA: Low-Rank Adaptation Abstract

LoRA 论文的摘要介绍了一种用于减少大规模预训练模型微调过程中可训练参数数量和内存需求的方法,例如拥有1750亿参数的GPT-3。LoRA 通过冻结模型权重并引入可训练的低秩分解矩阵,减少了10,000倍的可训练参数,并降低了3倍的GPU内存使用量,同时在性能上与完全微调持平,并且没有额外的推理延迟。更多信息请访问 LoRA GitHub。。LoRA 在大多数任务上都优于其他适应方法,甚至在某些任务上超过了完全微调的性能,同时训练的参数远远少于完全微调。

2024-09-12 22:36:40 1054

原创 LongLLaVA:扩展多模态大语言模型到处理1000张图像的能力

LongLLaVA代表了多模态 AI 的一次重大进步,提供了一种强大的解决方案,用于大规模视觉数据的处理。通过其混合架构、高效的图像 token 压缩以及渐进式训练策略,LongLLaVA 为多模态长上下文模型设定了新的标准。它不仅在扩展性上表现出色,而且在处理大量图像或视频数据的任务中也表现出色。这一模型的开发为视频理解医学影像和多模态智能助手等领域的 AI 应用指明了未来的方向,在需要处理大量数据集的应用场景中将具有重要影响。

2024-09-10 13:44:02 1363

原创 Qwen-VL

是一个前沿的大规模视觉语言模型(LVLM),设计用于增强视觉和语言模态之间的交互能力。基于模型,Qwen-VL 集成了视觉编码器、位置感知的视觉语言适配器以及多阶段训练流程,扩展了从文本到图像的理解能力。Qwen-VL 不仅支持传统的任务,如图像描述和视觉问答(VQA),还能够执行更复杂的视觉任务,例如细粒度的对象检测和图像中的文本识别。通过多阶段的训练框架和大规模数据的应用,Qwen-VL 在多个视觉语言任务中展现了出色的性能。本文将深入探讨其架构、方法论和应用场景。

2024-09-09 16:34:31 860

原创 GLIP - 统一物体检测与短语定位的语言

是一个新颖的模型,通过将视为上下文化的短语定位任务,将物体检测和短语定位统一起来。这种方法实现了一个灵活的、开放词汇的物体检测框架,将图像中的区域与文本描述对齐。这种方法克服了传统物体检测系统的局限性,后者通常只训练于固定的物体类别集。GLIP 的核心贡献在于将物体检测重构为短语定位、深度语言感知的视觉与文本信息融合,以及利用大量人类标注和自监督的图像-文本数据进行预训练。

2024-09-09 15:05:31 1537

原创 Vision Transformer(ViT)——图像识别的新篇章

Vision Transformer通过创新性地将Transformer架构应用于图像识别任务,突破了传统CNN的限制。在大规模数据集和强大的计算资源支持下,ViT展示了卓越的性能。尽管仍面临一些挑战,但ViT的出现为计算机视觉领域带来了新的思路和可能性。

2024-09-07 16:54:54 1219

原创 Mac 安装 vscode miniconda

它包含了Python解释器以及conda,conda是一个包管理器和环境管理器,用于创建独立的Python环境。打开设置: 点击“文件”->“首选项”->“设置”(或使用快捷键 Ctrl+Shift+P,输入“Preferences: Open User Settings”)。这条错误信息的意思是:VS Code 无法将指定的 Python 解释器路径写入用户设置文件中。输入conda命令: 在终端中输入conda --version,如果显示conda的版本信息,则说明安装成功。

2024-09-02 16:40:40 1570

原创 CLIP原理及code

在模型训练时,CLIP的图像编码器和文本编码器并不是独立训练的,而是通过一个共享的对比学习目标函数共同训练。CLIP通过大规模的图像-文本对进行训练,使得模型能够将正确配对的图像和文本在嵌入空间中靠近,而将错误配对的图像和文本分离。每个批次的数据包含图像和对应的文本描述,模型通过计算图像和文本的嵌入表示,然后使用对比损失来训练模型。:尽管论文主要关注的是图像和文本的关联,但CLIP的输出也可以用于指导生成模型,如DALL·E,以生成符合文本描述的图像。:CLIP能够实现文本检索图像,或图像检索文本。

2024-09-01 22:04:56 1426

原创 扩散模型(Diffusion Models)

扩散模型是一种基于随机过程的生成模型,灵感来源于物理学中的扩散过程,即有序结构逐渐转化为无序状态。在机器学习中,扩散模型用于生成高质量的数据(如图像、音频等)。其核心思想是通过一个可逆的随机过程,将数据从有序状态(如清晰图像)转化为无序状态(噪声),然后逆向该过程生成新数据。

2024-08-26 22:23:09 676

原创 【模型部署不同精度的区别】

如果需要识别非常细微的特征,例如医学影像中的肿瘤,就需要更高的精度,选择FP32。需要根据具体的应用场景和硬件资源,综合考虑模型的精度、速度和内存占用,才能找到最优的解决方案。: 不同的模型结构对精度的敏感程度不同。应用场景: 对实时性要求较高,但精度损失可以接受的场景,例如手机端的图像分类应用。应用场景: 对速度和内存要求极高的场景,例如嵌入式设备上的实时图像处理。云端服务: 对精度要求较高,但可以利用强大的计算资源,通常采用FP32。: 如果设备的计算能力和内存有限,就需要选择低精度的模型。

2024-08-24 22:08:06 380

原创 NOTE! Installing ujson may make loading annotations faster.

UltraJSON是一个超快的JSON编码器和解码器,用纯C编写,带有Python 3.7+的绑定。

2023-05-30 17:12:11 218

原创 Segment Anything

code: https://github.com/facebookresearch/segment-anythingpaper: 论文地址在线demo:https://segment-anything.com/demo数据集:https://segment-anything.com/dataset/index.html代码测试网页demo测试可以通过jupyter notebook 体验测试使用SAM选择对象首先,加载SAM模型和预测器。将下面的路径更改为指向SAM检查点。为了获得最

2023-04-08 18:13:42 359

原创 detrex code 复现

detrex code

2022-09-28 17:31:17 867 4

原创 Towards Grand Unification of Object Tracking 单目标 多目标 跟踪&分割

Unicorn首次实现了网络架构和四种跟踪任务学习范式的大统一

2022-07-21 14:02:52 1594

转载 第一章_数学基础

深度学习数学基础

2022-06-22 10:37:41 108

原创 最小二乘回归的线性代数观点

回归的目标是将数学模型拟合到一组观察点。假设我们正在收集某个工厂每天机器故障数量的数据。假设我们有三个数据点:目标是找到适合这些点的线性方程。我们相信存在一种潜在的数学关系,可以将“day”唯一地映射到“number of machine failures”(“机器故障数”),或者在表格中其中 b 是每天的失败次数,x 是一天,C 和 D 是我们正在寻找的回归系数。我们可以将这三个数据点写成一个简单的线性系统,如下所示:对于前两点,模型是一个完美的线性系统。当 x = 1 时,b = 1;当

2022-06-14 10:40:50 154

原创 python getToken from appKey,appSecret

获取token

2022-06-07 09:42:08 359

原创 CRNN_论文_code

论文:http://arxiv.org/abs/1507.05717git-torch : https://github.com/meijieru/crnn.pytorch特点(1) It is end-to-end trainable,in contrast to most of the existing algorithms whose components are separately trained and tuned.(2) It naturally handles sequences i

2022-05-19 18:00:06 215

原创 yolov3 tf1->tf2

Tensorflow 2.0 不兼容 Session()删除session相关代码,2.把keras的相关代码改为tf2.x的代码# from keras import backend as K# from keras.layers import Conv2D, Add, ZeroPadding2D, UpSampling2D, Concatenate, MaxPooling2D# from keras.layers.advanced_activations import LeakyReLU...

2022-05-17 15:10:10 370

原创 windows nao naoqi SDK 配置

windows nao naoqi SDK 配置python2.7安装配置环境变量naoqi SDK下载解压配置环境变量重启电脑

2021-11-14 20:22:27 731

原创 Could not load dynamic library ‘libcudnn.so.8‘

>>> tf.test.is_gpu_available()WARNING:tensorflow:From <stdin>:1: is_gpu_available (from tensorflow.python.framework.test_util) is deprecated and will be removed in a future version.Instructions for updating:Use `tf.config.list_physical_de

2021-06-04 10:11:09 1528 1

原创 How to Install and Use FFmpeg on Ubuntu 18.04

查看已有版本ffmpeg -version卸载旧版本sudo apt-get remove --purge ffmpeg安装 FFmpeg 4.x on Ubuntusudo snap install ffmpeg

2021-06-02 17:24:21 113

原创 No module named ‘ffmpeg‘

[GCC 7.3.0] :: Anaconda, Inc. on linuxType "help", "copyright", "credits" or "license" for more information.>>> import ffmpegTraceback (most recent call last): File "<stdin>", line 1, in <module>ModuleNotFoundError: No module nam

2021-05-22 16:26:58 8769

原创 Atom pytracking 运行

zip001 zip002 zip003 解压cat TRAIN_1.zip* > Tr1.zipunzip Tr1.zip -d …/Tracking/Traceback (most recent call last):File “run_training.py”, line 55, in main()File “run_training.py”, line 50, in mainrun_training(args.train_module, args.train_name, arg

2021-04-06 15:12:39 595

原创 AD-VAT: A N ASYMMETRIC DUELING MECHANISM FOR LEARNING VISUAL ACTIVE TRACKING 基于非对称的学习决斗机制的主动视觉跟踪

AD-VAT: A N ASYMMETRIC DUELING MECHANISM FOR LEARNING VISUAL ACTIVE TRACKING文章目录AD-VAT: A N ASYMMETRIC DUELING MECHANISM FOR LEARNING VISUAL ACTIVE TRACKINGABSTRACTRELATED WORKMETHODEXPERIMENTS一、pandas是什么?二、使用步骤1.引入库2.读入数据总结ABSTRACT视觉主动跟踪(VAT)是指在给定的视觉观测

2021-04-01 18:53:02 459

原创 Ubuntu18 插上耳机无声

sudo apt-get install pavucontrol输入pavucontrol打开选择修改成Headphones即可

2021-03-24 15:49:22 165

原创 高性能运算集群使用

高性能运算集群使用1、登录并上传数据及程序文件传输文件2、编写脚本:3、任务投递:4、conda相关设置5、查看任务情况:6、查看任务结果1、登录并上传数据及程序文件以用户user2为例:登录后可用pwd命令查看当前位置:/home/user2,该目录不可存放文件程序存放位置:/appdata3/user2数据存放位置:/data1/user2分别在该两个目录下建立自己的文件夹ssh 210.47.18.250 -l user2传输文件scp --自己的本地文件地址------

2020-11-17 15:13:22 1191

翻译 深度学习-python-jupyter notebooks

import keraskeras.__version__我们现在来看一个神经网络的第一个具体例子,它使用Python库Keras来学习分类手写数字。除非您已经有使用Keras或类似库的经验,否则您不会完全理解这一点第一个例子马上。你可能还没有安装Keras。别担心,那很好。在下一章中,我们将回顾我们例子中的每个元素并详细解释它们。所以,不要担心某些步骤在你看来是武断的还是魔术般的!...

2020-02-24 15:26:51 510

本书系统地描述了深度学习的基本理论算法及应用

本书系统地描述了深度学习的基本理论算法及应用

2022-06-22

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除