
大模型
文章平均质量分 88
Toky丶
在读博士生,主要研究方向为医疗机器人的视觉引导,其他例如三维计算机视觉,SLAM,深度学习啥都略懂。
展开
-
SmolVLM2: The Smollest Video Model Ever(七)
表示你调用 OpenAI API 时达到了组织(organization)的请求速率限制(RPM,Requests Per Minute,每分钟请求数)。的请求速率达到了上限(最大 RPM 为 3),需要等待 1 秒钟后再尝试。成本上来讲,kimi应该是更便宜一些,还免费送了15块钱。解决:在调用的时候加一个计时器去限制一下。错误信息中明确指出你的账号所在组织。总的来说,kimi输出的起码。# 保存模型到本地指定目录。原创 2025-05-29 16:06:39 · 545 阅读 · 0 评论 -
【文献阅读】EndoChat: Grounded Multimodal Large Language Model for Endoscopic Surgery
近年来,多模态大语言模型(MLLMs)在计算机辅助诊断和决策中展现出巨大潜力。在机器人辅助手术领域,MLLMs 可作为手术培训和指导的有效工具。然而,临床应用中仍缺乏专门用于手术场景理解的 MLLMs。本文引入 EndoChat,以解决外科医生在手术场景理解中遇到的各种对话范式和子任务。为训练 EndoChat,我们通过一种新型流程构建了 Surg-396K 数据集,该流程基于收集的大规模内窥镜手术数据集,系统提取手术信息并生成结构化注释。此外,我们引入多尺度视觉令牌交互机制和基于视觉对比的推理机制原创 2025-05-27 11:11:05 · 736 阅读 · 0 评论 -
【文献阅读】Mixture of Lookup Experts
专家混合模型(MoE)在推理过程中仅激活部分专家,使得模型即使在参数规模扩大时仍能保持较低的推理 FLOPs 和延迟。然而,由于 MoE 动态选择专家,所有专家均需加载到 VRAM 中。其庞大的参数规模仍限制了部署,而仅在需要时将专家加载到 VRAM 的卸载策略会显著增加推理延迟。为解决这一问题,我们提出 Lookup 专家混合模型(MoLE),这是一种在通信和 VRAM 使用方面均高效的新型 MoE 架构。在 MoLE 中,专家在训练期间为前馈网络(FFNs),以嵌入层的输出作为输入。推理前,这些专家可重原创 2025-05-26 22:07:11 · 756 阅读 · 0 评论 -
SmolVLM2: The Smollest Video Model Ever(六)
继续微调数据集问题代码中使用的数据集是示例idimagesvideo link600047611331100254611311200050522231本地数据集解析与对应关系在本地文件中:这里的test-xxx.parquet里面封装的就是数据集的prompt还有一些文本信息,不过是以二进制形式存储的,所以直接打开看不懂。对应着frames_real_test里面的80个文件夹。原创 2025-04-27 14:12:27 · 930 阅读 · 0 评论 -
【工程开发】LLMC准确高效的LLM压缩工具(三)——AWQ算法量化
AWQ算法原创 2025-04-23 15:04:06 · 758 阅读 · 0 评论 -
SmolVLM2: The Smollest Video Model Ever(五)
继续学习SmolLM模型概述SmolLM 是一系列小型语言模型,有三种规模:参数数量分别为 1.35 亿、3.6 亿和 17 亿。这些模型在 SmolLM 语料库上进行训练,该语料库是经过精心整理的高质量教育及合成数据集合,专为训练大语言模型而设计。更多详细信息,请参阅我们的博客文章。为构建 SmolLM-Instruct,我们在公开可用的数据集上对基础模型进行了微调。变更日志版本发布描述v0.1SmolLM-Instruct 的首次发布。原创 2025-04-20 22:05:30 · 786 阅读 · 0 评论 -
【工程开发】LLMC准确高效的LLM压缩工具(二)
确保数据集路径正确,若使用本地文件请检查压缩格式是否为zstd并确认文件完整性。可以看到已有的模型里作者实现了smollm,但是v2版本的太新了,没来得及实现。需要安装支持Zstandard(zstd)压缩的依赖库。:配置文件中的参数维度会与权重文件的张量形状严格匹配,确保参数正确加载。是Python中处理zstd压缩的官方库,安装后会自动被。)中的参数名会与代码定义的层名自动对齐,实现权重加载。原创 2025-04-15 14:38:39 · 768 阅读 · 0 评论 -
SmolVLM2: The Smollest Video Model Ever(四)
为了确定最有效的生成风格,我们通过训练 1.8B 模型进行了对比实验,其中我们使用不同的 Cosmopedia v1 子集数据,共计有 80 亿 token 的数据量。SmolLM-1.7B 还在 Python 编程能力上表现抢眼 (我们测评的 Qwen2-1.5B 分数和 Qwen 团队给出的不同,我们的实验配置是: temperature 设为 0.2,top-p 设为 0.95,样本量为 20)。我们发现,在针对中学生受众的生成数据上训练,模型在除了 MMLU 的各项指标上取得了最好的分数。原创 2025-04-15 11:54:29 · 852 阅读 · 0 评论 -
【工程开发】LLMC准确高效的LLM压缩工具(一)
大语言模型(LLMs)的最新进展凭借其卓越的涌现能力和推理能力,正推动我们迈向通用人工智能。然而,大量的计算和内存需求限制了它们的广泛应用。量化作为一种关键的压缩技术,虽可能对准确性构成潜在风险,但能够通过压缩和加速大语言模型,有效缓解这些需求。众多研究致力于将量化带来的准确性损失降至最低。然而,它们的量化配置各不相同,无法进行公平比较。在本文中,我们提出了LLMC,这是一个即插即用的压缩工具包,用于公平且系统地探究量化的影响。LLMC集成了数十种算法、模型和硬件,提供了从整数到浮点量化、从大语言模原创 2025-04-13 19:59:24 · 949 阅读 · 0 评论 -
SmolVLM2: The Smollest Video Model Ever(三)
虽然大语言模型在人工智能的许多应用中取得了突破,但其固有的大规模特性使得它们在计算上成本高昂,并且在资源受限的环境中部署具有挑战性。在本文中,我们记录了SmolLM2的开发过程,这是一种最先进的 “小型”(17亿参数)语言模型(LM)。为了获得强大的性能,我们使用多阶段训练过程,在约11万亿个词元的数据上对SmolLM2进行过度训练,该过程将网页文本与专业的数学、代码和指令跟随数据混合在一起。此外,在我们发现现有数据集存在规模过小或质量较低的问题时,我们引入了新的专业数据集(FineMath、Stack原创 2025-04-10 22:08:07 · 856 阅读 · 0 评论 -
【文献阅读】Capabilities of Gemini Models in Medicine
在众多医疗应用中实现卓越表现对人工智能来说是巨大挑战,这需要先进的推理能力、获取最新医学知识的途径,以及对复杂多模态数据的理解。Gemini模型在多模态和长上下文推理方面具备强大的通用能力,为医学领域带来了令人期待的可能性。基于Gemini 1.0和Gemini 1.5的这些核心优势,我们推出了Med - Gemini,这是一系列功能强大的多模态模型,专门针对医学领域进行了优化,能够无缝整合网络搜索功能,并且可以通过定制编码器高效地适配新的模态。原创 2025-04-09 21:17:14 · 613 阅读 · 0 评论 -
【文献阅读】NVILA: Efficient Frontier Visual Language Models
发表于2025年3月6日英伟达团队近年来,视觉语言模型(VLMs)在准确性方面取得了显著进展。然而,其效率却较少受到关注。本文介绍了NVILA,这是一系列旨在优化效率和准确性的开源视觉语言模型。在VILA的基础上,我们通过先提高空间和时间分辨率,然后压缩视觉令牌来改进其模型架构。这种 “先缩放后压缩” 的方法使NVILA能够高效处理高分辨率图像和长视频。我们还进行了系统研究,以在NVILA从训练到部署的整个生命周期中提高其效率。在广泛的图像和视频基准测试中,NVILA的准确性与许多领先的开源和专有视觉语言模原创 2025-04-08 10:31:50 · 699 阅读 · 0 评论 -
【文献阅读】Key, Value, Compress: A Systematic Exploration of KV Cache Compression Techniques
大语言模型(LLMs)在生成文本、图像和视频内容方面展现出卓越的能力。然而,随着上下文长度的增加,注意力机制的计算成本会随着令牌数量的增加而呈二次方增长,这带来了显著的效率挑战。本文对各种键值(KV)缓存压缩策略进行了分析,提供了一个全面的分类体系,根据其基本原理和实现技术对这些方法进行分类。此外,我们评估了它们对性能和推理延迟的影响,深入了解了它们的有效性。我们的研究结果突出了KV缓存压缩所涉及的权衡,以及它对处理长上下文场景的影响,为更高效的大语言模型实现铺平了道路。近年来,大语言模型原创 2025-04-02 21:45:22 · 597 阅读 · 0 评论 -
【工程开发】Qwen2.5-VL-32B-Instruct 微调(三)
【测试一下性能】原创 2025-04-02 20:15:16 · 490 阅读 · 0 评论 -
【工程开发】Qwen2.5-VL-32B-Instruct 微调(二)
【文献阅读】Qwen2.5-VL Technical Report 我们介绍Qwen2.5-VL,这是通义千问视觉语言系列的最新旗舰模型,它在基础能力和创新功能方面都取得了显著进展。Qwen2.5-VL通过增强视觉识别、精确物体定位、强大的文档解析和长视频理解能力,在理解世界和与世界交互方面实现了重大飞跃。Qwen2.5-VL的一个突出特点是它能够使用边界框或点精确地定位物体。它可以从发票、表单和表格中可靠地提取结构化数据原创 2025-04-02 16:21:28 · 1241 阅读 · 0 评论 -
【工程开发】Qwen2.5-VL-32B-Instruct 微调(一)
在原有公式的基础上,我们通过进一步增强了 Qwen2.5-VL-32B 的数学和问题解决能力。这也显著改善了模型的主观用户体验,响应风格调整得更符合人类偏好。特别是在数学、逻辑推理和知识问答等客观查询中,响应的细节程度和格式清晰度得到了显著提升。简介自 Qwen2-VL 发布以来的五个月中,许多开发者基于 Qwen2-VL 视觉语言模型构建了新的模型,并为我们提供了宝贵的反馈。在此期间,我们专注于构建更有用的视觉语言模型。原创 2025-04-02 14:54:45 · 1330 阅读 · 0 评论 -
【文献阅读】Vision-Language Models for Vision Tasks: A Survey
发表于2024年2月TPAMI大多数视觉识别研究在深度神经网络(DNN)训练中严重依赖标注数据,并且通常为每个单一视觉识别任务训练一个DNN,这导致了一种费力且耗时的视觉识别范式。为应对这两个挑战,视觉语言模型(VLM)最近受到了广泛研究,它从互联网上几乎无限可用的网络规模图像文本对中学习丰富的视觉语言相关性,并能够使用单个VLM对各种视觉识别任务进行零样本预测。本文对用于各种视觉识别任务的视觉语言模型进行了系统综述,包括:(1)介绍视觉识别范式发展的背景;(2)VLM的基础,总结广泛采用的网络架构、预训练原创 2025-04-01 21:18:39 · 897 阅读 · 0 评论 -
【报告】大模型算力与推理优化相关
无原创 2025-04-01 19:41:30 · 150 阅读 · 0 评论 -
【文献阅读】A Stronger Mixture of Low-Rank Experts for Fine-Tuning Foundation Models
用于微调基础模型的更强大低秩专家混合方法为简化基础模型的微调过程,低秩适配器(LoRAs)已在包括指令调整和领域适应等多个领域广泛应用。LoRA的基本概念是将满秩矩阵分解为两个低秩矩阵的乘积,这减少了存储消耗并加速了训练过程。此外,为解决LoRA表达能力有限的问题,专家混合(MoE)被引入以整合多个LoRA适配器。LoRA专家的集成在多个下游场景中带来了明显的性能提升。然而,Lo原创 2025-04-01 16:21:12 · 620 阅读 · 0 评论 -
【文献阅读】SurgiSAM2: Fine-tuning a foundational model for surgical video anatomy segmentation and detect
SAM 2 是 Meta 公司发布的 Segment Anything Model 2 的简称。SAM 2 是一种先进的图像和视频分割模型,是 SAM 的升级版本。其具有以下特点:SAM 2 的这些特性使其成为计算机视觉领域的重要进展,为图像和视频处理提供了强大的工具,在自动驾驶、医学影像分析、影视后期制作等多个领域都有广泛的应用前景。背景:基础分割模型,如分割一切模型(Segmenting Anything Model,SAM)和SAM 2,通过在不同领域实现卓越的零样本性能,改变了分割技术的格局。在本研原创 2025-03-31 21:17:56 · 863 阅读 · 0 评论 -
【文献阅读】From Decision to Action in Surgical Autonomy: Multi-Modal Large Language Models for Robot-Assi
大语言模型(LLMs)的兴起对机器人学和自动化领域的研究产生了影响。虽然在将大语言模型集成到一般机器人任务方面已经取得了进展,但在更特定的领域,如外科手术中,它们的应用仍存在明显的空白,在外科手术中,推理、可解释性和安全性等关键因素至关重要。实现机器人手术的自主性,即具备推理和适应环境变化的能力,仍然是一个重大挑战。在这项工作中,我们提出在机器人辅助手术中集成原创 2025-03-31 10:47:04 · 802 阅读 · 0 评论 -
【文献阅读】A Survey of Low-bit Large Language Models: Basics, Systems, and Algorithms
基础、系统与算法大语言模型(LLMs)在自然语言处理领域取得了显著进展,在各种任务中展现出卓越的性能。然而,高昂的内存和计算需求给其实际部署带来了巨大挑战。低比特量化作为一种关键方法,通过减少模型参数、激活值和梯度的比特宽度,降低了内存使用和计算需求。本文全面综述了针对大语言模型的低比特量化方法,涵盖了基本原理、系统实现和算法策略。首先介绍了低比特大语言模型的基本概念和特定的数据格式原创 2025-03-30 21:35:57 · 654 阅读 · 0 评论