- 博客(98)
- 收藏
- 关注
原创 timm教程翻译:(七)timm数据增强之Mixup & CutMix Augmentations
timm 支持多种数据增强,其中一种就是Mixup。CutMix紧随Mixup之后,大多数深度学习从业者在训练流程中使用Mixup或CutMix来提升性能。但 timm 可以同时使用这两种增强!在本教程中,我们将专门研究在训练过程中实现MixUp和CutMix数据增强的各种训练参数,并深入库的内部机制,了解 timm 是如何实现这些增强的。
2025-10-22 11:09:22
720
原创 timm教程翻译:(六)Data
如上图所示,最终的损失输出实际上是XorigX_{orig}XorigXaugmix1Xaugmix1和Xaugmix2Xaugmix2上标签与模型预测之间的分类损失与 λ 乘以 Jensen-Shannon 损失之和。因此,在这种情况下,我们需要该批次的三个版本——原始版本、augmix1 和 augmix2。那么我们如何实现呢?当然是使用 AugmixDataset!
2025-10-21 22:07:27
755
原创 timm教程翻译:(五)TIMM‘s `create_model` function with all it‘s **kwargs
您可能已经从标题猜到了,在本教程中,我们将研究 timm 中的 create_model 函数,并了解可以传递给该函数的所有 **kwargs。create_model 函数的作用是什么?在 timm 中,create_model 函数负责创建 300 多个深度学习模型的架构!要创建模型,只需将 model_name 传递给 create_model 即可。等等…可以使用函数找到可用模型的完整列表。
2025-10-21 17:53:38
340
原创 timm教程翻译:(四)Model Architectures (WIP)以及 Models API and Pretrained weights
这就是为什么当我们尝试加载预训练权重时,torchvision 会报错,因为我们将输入通道数设置为 1,导致模型的 conv1 层权重形状为 [64, 1, 7, 7]。我希望现在我们上面看到的这个异常更加合理了:假设 groups=1,权重大小为 [64, 3, 7, 7],预期输入 [1, 1, 224, 224] 有 3 个通道,但实际得到的只有 1 个通道。在上面的例子中,我们在 timm.list_models() 中随机选择一个模型名称,创建它,并将一些虚拟输入数据传递给模型以获得输出。
2025-10-20 21:55:38
682
原创 timm教程翻译:(三)How to train your own models using timm?
在本教程中,我们将研究timm的训练脚本。timm提供多种功能,其中一些列在下面:(1) Auto Augmentation(自动增强)(2) Augmix(3)Distributed Training on multiple GPUs (多 GPU 分布式训练)(4)Mixed precision training (混合精度训练)(5)Auxiliary Batch Norm for AdvProp (AdvProp 的辅助批量归一化)
2025-10-19 13:14:39
836
原创 timm教程翻译:(二)Trainging
在两张较旧的 1080Ti 显卡上训练,这花了一段时间。与我第一次运行 AugMix 不同,我启用了 SplitBatchNorm,在干净分割上禁用了随机擦除,并在两条增强路径上提高了随机擦除概率。与我第一次运行 AugMix 不同,我启用了 SplitBatchNorm,在干净分割上禁用了随机擦除,并在两条增强路径上提高了随机擦除概率。训练了将近三周后,进程崩溃了。结果看起来并不理想,所以我多次重启训练,并调整了一些参数(增加 RE prob,减少 rand-aug,增加 ema-decay)。
2025-10-19 10:14:55
1034
原创 timm教程翻译:(一)Overview
返回 timm 中可用模型的完整列表。要查看预训练模型的完整列表,请在 list_models 中传入。函数是一个工厂方法,可用于创建 timm 库中超过 300 个模型。要创建具有自定义类别数的模型,只需传入。使用 timm 创建模型就是这么简单。
2025-10-18 22:47:21
387
原创 【论文翻译】Seg-Zero: Reasoning-Chain Guided Segmentation via Cognitive Reinforcement
本文提出Seg-Zero框架,通过解耦架构和强化学习实现了推理分割任务的突破性进展。该框架包含推理模型和分割模型:推理模型解释用户意图并生成包含位置提示的显式推理链,分割模型据此生成精确掩码。创新性地采用纯强化学习训练(GRPO算法),结合格式和精度奖励机制,无需显式推理数据即可实现卓越的零样本泛化能力。实验表明,SegZero-7B在ReasonSeg基准上达到57.5分,较LISA-7B提升18%,展现出强大的跨领域适应性和可解释的推理过程。该方法克服了传统监督微调导致的泛化性不足和灾难性遗忘问题,为复
2025-09-16 17:55:11
970
原创 论文翻译:VisionReasoner: Unified Visual Perception and Reasoning via Reinforcement Learning
VisionReasoner是一个统一的视觉感知框架,通过多目标认知学习策略和任务重构,能够处理检测、分割和计数三大类任务。该模型采用结构化推理过程,结合格式奖励和准确性奖励机制,优化预测与真实值的匹配。实验表明,VisionReasoner-7B模型仅需7000个训练样本,就在10个不同任务上表现出色,在COCO检测、ReasonSeg分割和CountBench计数任务上分别以29.1%、22.1%和15.3%的优势超越Qwen2.5VL,展现了强大的泛化能力和计算效率。
2025-09-14 11:19:54
918
原创 论文翻译:BRILLM: BRAIN-INSPIRED LARGE LANGUAGE MODEL
BriLLM提出了一种受大脑启发的新型语言模型,采用信号全连接流(SiFu)学习范式,突破传统Transformer架构的三大局限:黑盒不透明性、二次复杂度与上下文长度依赖。该模型通过静态语义映射和动态信号传播模拟神经认知机制,实现了完全可解释性、上下文无关的扩展能力,以及首个类脑处理的全局模拟。实验显示1-20亿参数模型达到GPT-1水平,理论分析证实100-2000亿参数模型可支持4万token上下文处理,为生物启发的AGI发展开辟了新路径。
2025-08-27 09:12:48
788
原创 【deepseek问答记录】:chatGPT的参数数量和上下文长度有关系吗?
大型语言模型的参数数量和上下文长度是两个独立但紧密相关的概念。参数数量决定模型的"大脑容量"和知识规模,而上下文长度则限制了模型单次处理的信息量。虽然理论上可以单独调整,但在实践中,增加上下文长度会平方级增加计算复杂度(O(n²)),必须通过优化参数结构(如高效注意力算法)或增加参数量来维持性能。实际产品如ChatGPT的发展表明,更长上下文(如GPT-4 Turbo的128k tokens)往往需要更大或更优的参数支持。两者不是因果关系,但在模型设计中必须协同考虑,共同决定了模型的处理
2025-08-26 13:39:21
1060
原创 B站小波变换视频笔记
摘要: 视频探讨了信号处理中时间与频率信息的权衡问题。现实中的信号(如小鼠脑电波)具有复杂结构,但传统傅里叶变换仅能提取频率成分,完全丢失时间信息(如交通灯故障检测场景)。这源于海森堡不确定性原理的根本限制——时间与频率分辨率无法同时最优。为在两者间取得平衡,视频引入小波变换:通过局部化波动基函数(而非无限延展的正弦波),既能捕捉瞬态特征,又能分析频率成分,形成"数学显微镜"。小波在牺牲部分分辨率的同时,实现了时间-频率联合分析,弥补了傅里叶变换的缺陷。 (注:摘要严格控制在150字内,
2025-08-09 14:51:04
656
原创 Docker学习相关视频笔记(三)
本期视频我们(1)先介绍了docker的核心概念,主要有容器镜像,还有镜像仓库(2)演示了如何在linux windows,还有Mac电脑上安装docker,(3)使用docker pull命令下载镜像,以及如何配置镜像站,解决下载镜像的网络问题(4)接下来我们使用docker run命令创建并且运行了容器,介绍了docker run命令的几个重要参数:-p端口映射,-v挂载卷,-e设置环境变量等等,(5)接下来介绍了如何进入容器内部进行调试,然后我们还看了docker的几种网络。
2025-07-30 10:17:42
824
原创 Docker学习相关视频笔记(二)
本文介绍了Docker的两个核心命令:docker run和docker ps。docker run用于创建并运行容器,支持-d参数实现后台运行,-p参数进行端口映射,以及-v参数设置挂载卷。重点讲解了两种挂载方式:绑定挂载直接指定宿主机目录,会覆盖容器目录;命名卷挂载则由Docker自动管理存储空间。文章通过Nginx实例演示了端口映射和目录挂载的具体应用,并说明了如何通过docker ps查看运行中的容器,以及使用docker rm删除容器。这些操作是Docker日常使用中的基础核心功能。
2025-07-29 21:08:14
961
1
原创 【论文翻】XLRS-Bench: Could Your Multimodal LLMs Understand Extremely Large Ultra-High-Resolution Remote
本文提出XLRS-Bench基准测试集,针对超高分辨率遥感图像评估多模态大语言模型(MLLM)的感知与推理能力。该基准具有三大创新点:1)采用8500×8500超大图像尺寸;2)通过新型半自动标注工具结合人工校验确保标注质量;3)定义16个子任务全面评估10类感知与6类推理能力。实验结果表明显有模型仍需改进才能满足实际遥感应用需求。该研究为开发更强大的遥感MLLM提供了标准评估框架。
2025-07-19 12:16:34
887
原创 论文翻译:Falcon: A Remote Sensing Vision-Language Foundation Model
本文提出Falcon,首个专为遥感设计的统一视觉语言基础模型。该模型采用基于提示的范式,在图像、区域和像素三个层面同时支持14种遥感任务(分类、检测、分割等)。为训练模型,研究团队构建了包含7800万样本的Falcon_SFT数据集,覆盖560万幅多分辨率遥感图像,并通过人工验证确保质量。实验表明,仅7亿参数的Falcon在67个数据集上表现优异。模型代码、数据和权重已在GitHub开源。相较以往仅支持特定任务的遥感模型(如GeoChat),Falcon实现了跨层级多任务的统一表征,其核心创新在于通过统一网
2025-07-13 21:24:58
1302
原创 torch.concat用法
torch.concat(即torch.cat)是PyTorch中用于拼接张量的关键函数。它沿指定维度连接多个形状匹配的张量,要求除拼接维度外其他维度必须相同。示例展示了0维(行拼接)和1维(列拼接)的操作,以及三维张量的拼接。使用时需注意形状匹配和禁止空张量,与torch.stack的区别在于是否新增维度。该函数适用于特征合并或批量数据处理等场景。正确应用需确保非拼接维度的一致性。
2025-06-23 16:39:34
974
原创 tokenizer的apply_chat_template
摘要:tokenizer.apply_chat_template是Hugging Face Transformers库中处理对话数据的方法,将聊天消息转换为模型输入格式。当参数设置为tokenize=False, add_generation_prompt=True时,会输出格式化字符串并在末尾添加模型生成标记(如Mistral模型的\n<|im_start|>assistant\n)。该方法支持不同模型的特定模板(如ChatML/LLAMA2格式),自动处理对话轮次,特别适用于交互场景。使用时
2025-06-23 10:16:55
4501
原创 transformers 的Trainer的用法
Trainer 自动处理以下任务:训练循环:自动实现 epoch 迭代、批次加载优化器&学习率调度:内置 AdamW 并支持自定义分布式训练:自动支持单机多卡(DataParallel/DistributedDataParallel)混合精度训练:通过 fp16=True 启用日志记录:集成 TensorBoard、Weights & Biases 等模型保存:定期保存检查点 + 最佳模型保存评估指标计算:自动计算验证集指标
2025-06-07 14:32:10
2080
原创 vscode调试deepspeed的方法之一(无需调整脚本)
摘要:本文介绍在VSCode中调试DeepSpeed训练脚本的方法。首先需设置NCCL环境变量解决RTX 4000显卡兼容性问题,配置HF镜像源。调试步骤包括:1)创建launch.json调试配置文件;2)添加DeepSpeed调试配置,指定单GPU运行、程序路径和训练参数;3)设置关键环境变量如CUDA_VISIBLE_DEVICES=0强制单卡调试;4)启动调试会话。该方法通过VSCode集成终端实现DeepSpeed训练过程的断点调试,特别适合LLaVA等大模型训练场景。(149字)
2025-06-07 10:38:46
477
原创 deepseek问答记录:请讲解一下transformers.HfArgumentParser()
Hugging Face Transformers库中的HfArgumentParser是一个专为机器学习任务设计的命令行参数解析器,它通过dataclass简化了复杂参数的配置管理。该工具能够自动从数据类生成命令行参数,支持多来源解析(命令行、环境变量、配置文件),并与Transformers生态无缝集成。使用流程包括定义数据类、创建解析器、解析参数三个步骤。相比传统argparse,它具有代码简洁、类型安全、模块化强等优势,特别适合管理NLP任务中的模型、数据和训练参数,大幅提升了配置管理的效率和可靠性
2025-06-02 10:35:12
1205
原创 deepseek问答:torch.full() 函数详解
摘要:torch.full()是PyTorch中用于创建指定形状且所有元素值相同的张量的核心函数。其参数包括大小、填充值、数据类型等,支持灵活控制张量属性。该函数在深度学习中有广泛应用,如初始化张量、创建掩码和特殊数据结构等。与torch.ones()、torch.zeros()等类似函数相比,它允许自定义填充值。使用时需注意数据类型推断、内存优化和梯度处理等细节。torch.full()比NumPy的np.full()更优化,支持GPU加速和自动微分,是PyTorch张量操作的重要工具。
2025-05-31 09:51:31
1104
原创 deepseek问答记录:请讲解一下torch.full_like()
torch.full_like()是PyTorch中用于创建与输入张量形状相同但所有元素填充为指定值的函数。它继承输入张量的形状,允许通过参数控制数据类型、设备等属性。主要特点包括:形状继承性、全同填充、灵活的参数设置(如dtype、device)。与torch.full()等类似函数相比,它无需手动指定尺寸。典型应用包括初始化掩码、转换数据类型和准备梯度计算。使用时需注意数据类型兼容性和内存格式问题。该函数不修改原张量,总是返回新张量,适用于深度学习中的各种张量初始化场景。
2025-05-30 17:02:42
1332
原创 LLaVa官网文档翻译
LLaVa是一个开源的多模态聊天机器人,基于LlamA/Vicuna模型,通过GPT生成的多模态指令数据进行微调训练。该模型利用Transformer架构,在视觉指令调优方面取得突破性进展,仅使用120万公开数据就在11个基准测试中达到最优表现。LLaVa采用全连接的视觉-语言跨模态连接器,通过简单修改(如使用CLIP-ViT-L-336px和添加学术VQA数据)显著提升性能。模型支持批量生成计算(建议设置padding_side="left"),但处理多图像提示时可能不够准确。使用前需
2025-05-28 16:42:47
1160
原创 deepseek问答记录:请讲解一下hugingface transformers中的AutoProcessor
Hugging Face Transformers库中的AutoProcessor是一个自动化工具,用于加载与预训练模型配套的处理器,简化了多模态模型(如文本、图像、音频)的预处理流程。它能够根据模型名称或路径自动推断并加载相应的处理器(如分词器、特征提取器等),支持多种输入类型,并兼容Hugging Face模型库中的各类模型。AutoProcessor通过from_pretrained()方法加载处理器,并使用__call__方法处理输入,返回适合模型推理的张量格式。其优势在于代码简洁、灵活性高,但需注
2025-05-16 19:36:28
1339
原创 huggingface transformers中Dataset是一种什么数据类型
Hugging Face的datasets库中的Dataset对象是一个高效、灵活的数据容器,专为机器学习任务设计,尤其适用于自然语言处理。它基于Apache Arrow格式,支持内存映射和零拷贝读取,能够处理大型数据集。Dataset提供类字典接口,支持惰性操作与缓存,并能与深度学习框架无缝集成。通过load_dataset加载数据后,可以使用map方法进行预处理,并通过set_format转换为模型输入格式,直接用于训练。相比pandas.DataFrame和Python列表/字典,Dataset在内存
2025-05-13 22:08:07
733
原创 三、transformers基础组件之Model
Model Head是连接在模型后的层,通常为全连接层,用于将模型的编码表示映射到不同类型的任务。模型的加载可以通过在线或离线方式进行,在线加载使用AutoModel.from_pretrained方法,离线加载则需手动下载模型文件后从本地加载。加载模型时可以配置参数,通过model.config查看或设置。模型的调用需要先通过Tokenizer处理输入数据,返回的结果可以是列表或PyTorch张量,直接输入模型后得到编码结果。不带Model Head的模型调用仅返回编码结果,适用于特定任务的处理。
2025-05-12 19:42:08
1041
原创 【DeepSeek问答记录】请结合实例,讲解一下pytorch的DataLoader的使用方法
PyTorch的DataLoader是处理批量数据、并行加载和自动打乱的核心工具。本文通过实例详细讲解了DataLoader的基础使用流程,包括自定义数据集类、创建DataLoader实例以及遍历数据。结合实际场景,展示了如何在图像分类任务中使用DataLoader加载CIFAR10数据集,并进行训练循环。文章还深入解析了关键参数如batch_size、shuffle、num_workers等,并提供了处理非对齐数据的自定义collate_fn方法。此外,还介绍了性能优化技巧,如预加载数据、多进程优化和混合
2025-05-12 17:45:13
618
原创 二、transformers基础组件之Tokenizer
在使用神经网络处理自然语言处理任务时,数据预处理是关键步骤,通常包括分词、构建词典、数据转换、数据填充与截断等步骤。借助transformers工具包中的Tokenizer模块,可以快速实现这些操作。Tokenizer能够将文本转换为神经网络可处理的数字序列,并支持加载、保存、分词、索引转换、填充与截断等功能。例如,通过AutoTokenizer可以加载预训练模型的分词器,并对文本进行分词、编码和解码。此外,Tokenizer还支持生成attention_mask和token_type_ids,以区分有效数
2025-05-11 21:41:52
941
原创 一、transformers基础组件之pipeline
Hugging Face Transformers库中的pipeline函数是一个高度封装的工具,旨在简化预训练模型的使用。它将数据预处理、模型调用和结果后处理整合为一个流水线,用户只需指定任务类型并输入文本,即可获得所需结果,真正做到开箱即用。pipeline支持多种任务类型,如音频分类、自动语音识别、文本分类、问答、翻译等。通过调用SUPPORTED_TASKS,可以查看所有支持的任务及其对应的模型和默认配置。这一功能极大地简化了代码,提升了开发效率。
2025-05-10 18:43:49
980
原创 pytorch中不同的mask方法:masked_fill, masked_select, masked_scatter
在 PyTorch 中,和是三种常用的掩码(mask)操作方法,它们通过布尔类型的掩码张量(mask)对原始张量进行条件筛选或修改。
2025-03-30 11:09:15
1025
原创 huggingface datasets库中的load_dataset方法-------deepseek问答记录
传入本地数据集生成脚本的路径(需符合。
2025-03-24 19:11:18
2628
原创 python中的lambda表达式,python中的map和filter函数的用法-------deepseek问答记录
条件判断(返回两个数中的较大值)print(max_value(5, 8)) # 输出 8与普通函数的区别特性lambda 表达式普通函数 (def)名称匿名(无函数名)有函数名代码复杂度仅限单个表达式,无语句(如循环、赋值)可包含任意复杂代码块可读性适合简单逻辑适合复杂逻辑复用性通常一次性使用可重复调用注意事项避免滥用:复杂逻辑应使用def定义普通函数,保证代码可读性。变量作用域。
2025-03-24 17:04:49
769
原创 现代控制理论与传统的自动控制理论的内容的不同在哪里?模糊控制属于经典控制算法还是现代控制算法?------Deepseek问答记录
传统控制理论侧重于。
2025-03-24 09:47:43
1559
原创 python中两个星号什么意思
场景作用a ** b幂运算(如2**3=8收集关键字参数为字典解包字典为关键字参数合并字典(Python 3.5+)注意:单个星号的用法(如解包列表、收集位置参数)与**不同,需区分。
2025-03-23 11:42:39
970
原创 Huggingface transformers库使用教程(翻译)--------微调预训练模型
使用预训练模型有许多显著的好处。它降低了计算成本,减少了碳排放,同时允许您使用最先进的模型,而无需从头开始训练一个。🤗 Transformers 提供了涉及各种任务的成千上万的预训练模型。当您使用预训练模型时,您需要在与任务相关的数据集上训练该模型。这种操作被称为微调,是一种非常强大的训练技术。
2025-03-05 16:32:00
1290
原创 Huggingface transformers库使用教程(翻译)--------预处理数据
在您可以在数据集上训练模型之前,。。🤗 Transformers 提供了一组预处理类来帮助准备数据以供模型使用。
2025-03-05 15:45:05
1540
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅