Toky丶-CSDN博客

原创【文献阅读】ARB-LLM: Alternating Refined Binarizations for Large Language Models

本文提出ARB-LLM，一种面向大型语言模型（LLMs）的交替精炼二值化方法，旨在解决现有二值化技术因分布偏移和列偏差导致的性能下降问题。通过交替优化均值、行/列缩放因子和二值化矩阵（ARB），ARB-LLM显著降低量化误差，并进一步扩展为融入校准数据的ARB-X和行列双向二值化的ARB-RC。结合列组位图（CGB）优化权重划分，最终模型ARB-LLM_RC在OPT、LLaMA等模型上零样本任务和语言建模中超越FP16基线，内存占用仅2.63GB（LLaMA-7B），首次实现1位量化性能优于全精度模

2026-01-07 20:56:09 536

原创【文献阅读】BiLLM Pushing the Limit of Post-Training Quantization for LLMs

本文提出BiLLM，一种针对预训练大语言模型（LLMs）的高效1位训练后量化方法。通过分析LLM权重的钟形分布和海森矩阵特性，BiLLM采用双路径策略：对显著权重进行结构化筛选与残差逼近二值化，最小化量化误差；对非显著权重通过最优分割搜索分组二值化，适应其分布特征。实验表明，BiLLM在OPT、LLaMA等模型家族上仅需1.08位平均权重比特宽度（如LLaMA2-70B困惑度8.41），显著优于现有方法（如PB-LLM），且单卡0.5小时即可完成70亿参数模型的量

2026-01-07 12:36:40 442

原创【文献阅读】SignRoundV2: Closing the Performance Gap in Extrem SignRoundV2: Closing the Performance Gap in

本文提出SignRoundV2，一种针对大语言模型的高效后训练量化框架。该方法通过融合梯度信息与量化诱导偏差的灵敏度指标(DeltaLoss)指导逐层比特分配，并采用轻量级预调优搜索优化量化尺度。实验表明，在4-5比特下SignRoundV2能实现与全精度模型仅约1%的性能差距，即使在2比特下也保持优异表现。相比现有方法，该方法显著降低了量化成本，为LLM的高效部署提供了实用解决方案。

2026-01-07 10:49:57 295

原创【文献阅读】First clinical pregnancy following AI-based microfluidic sperm detection and recovery in

男性因素不育占不育病例的比例高达 40%¹，其中无精子症和隐匿精子症（以射精液中无精子或精子极为罕见为特征的疾病）约占这些病例的 10%-15%²。对于受影响的夫妇而言，诊断和治疗往往涉及多年反复失败的干预措施、侵入性操作以及情感困扰。常规治疗方案通常包括睾丸精子提取术 ³，或由专业胚胎学家进行长时间的人工精子搜寻，随后进行卵胞浆内单精子注射⁴。

2026-01-06 21:42:37 631

原创【文献阅读】Optimum Quanto：量化工作流与数学公式整合笔记

HuggingFace推出Optimum Quanto量化工具库，支持设备无关的线性量化，可对模型权重（实验性支持激活）进行低精度压缩（支持int8/int4/int2/float8）。该工具通过QuantoConfig配置量化参数，在模型加载时自动完成权重量化，无需修改推理代码。采用对称线性量化方法，结合HQQ优化低比特场景，最小化重建误差。特性包括多精度支持、设备无关性、原生集成HuggingFace生态，适配大语言模型、视觉模型和扩散模型等多种模态。量化后的权重可实时反量化或通过优化核直接计算，保持与

2026-01-04 17:23:51 628

原创【文献阅读】Half-Quadratic Quantization of Large Machine Learning Models

本文提出了一种新型量化技术——半二次量化（HQQ），用于解决大型机器学习模型部署中的内存需求问题。该方法无需校准数据，通过引入稀疏促进损失和半二次求解器，在保持与GPTQ等校准方法相当压缩质量的同时，显著提升量化速度。实验显示，HQQ量化Llama-2-70B仅需5分钟（比GPTQ快50倍），且2位量化模型的性能优于全精度Llama-2-13B。在视觉Transformer测试中，HQQ同样展现出优越性能，4位量化ViT-B-32的准确率比bitsandbytes高3.1%。该方法为高效部署大型模型提供了新

2026-01-04 10:59:02 944

原创【文献阅读】LLM.int8(): 8-bit Matrix Multiplication for Transformers at Scale

本文提出了一种名为LLM.int8()的8位整数量化方法，可在不损失性能的前提下，将大型语言模型的内存占用减少一半。该方法通过向量级量化和混合精度分解技术，有效处理了Transformer模型中系统性涌现的大振幅异常值特征（仅占0.1%但主导模型性能）。实验表明，该方法适用于高达1750亿参数的模型，使OPT-175B/BLOOM等超大模型能在消费级GPU上运行。研究揭示了模型规模与异常值特征涌现的关系，为高效量化提供了新思路。

2026-01-02 21:52:15 725

原创【文献阅读】PTQTP: Post-Training Quantization to Trit-Planes for Large Language Models

本文提出了一种创新的三值平面训练后量化方法PTQTP，用于高效压缩大型语言模型。该方法将权重矩阵分解为结构化三值平面{−1,0,1}，实现1.58比特量化，在保持无乘法运算优势的同时提升了表达能力。通过渐进近似算法和自适应正则化，PTQTP确保了量化过程的稳定性和全局一致性。实验结果表明，该方法在0.6亿-700亿参数的多种模型上表现优异，数学推理能力保留率达82.4%，显著优于现有低比特量化方法，且量化时间仅需1小时。PTQTP为资源受限环境下的LLM部署提供了实用解决方案，在计算效率与模型性能之间取得了

2025-12-30 21:38:07 496

原创【文献阅读】QLoRA Efficient Finetuning of Quantized LLMs

QLORA：高效量化微调大型语言模型本文提出QLORA，一种创新的4位量化微调方法，能在单块48GB GPU上高效微调650亿参数模型。通过将预训练模型量化为4位NF4数据类型，并引入低秩适配器(LoRA)，QLORA在保持16位性能的同时显著降低内存需求。主要创新包括：(1)信息论最优的NF4数据类型；(2)双重量化技术节省内存；(3)分页优化器管理内存峰值。实验表明，使用QLORA训练的Guanaco模型家族在Vicuna基准测试中达到ChatGPT 99.3%的性能，仅需单GPU训练24小时。研究还

2025-12-29 22:14:13 543

原创【文献阅读】DBellQuant: Breaking the Bell with Double-Bell Transformation for LLMs Post Training Binarizat

摘要：本文提出DBellQuant框架，通过创新的双钟形可学习变换(LTDB)算法实现大语言模型(LLM)的高效训练后量化。该方法将单钟形权重分布转换为更适配二值化的双钟形分布，同时通过逆变换平滑激活值异常值。实验表明，DBellQuant在保持模型性能的同时，首次实现近1位权重压缩与6位激活量化。在LLaMA2-13B等模型上，其困惑度(14.39)显著优于现有方法(21.35)，为LLM的高效部署提供了突破性解决方案。该技术大幅降低了计算和内存需求，使大模型在资源受限环境中的应用成为可能。

2025-12-19 22:06:57 759

原创【文献阅读】HQQ 半二次量化：大型机器学习模型的高效量化方法

本文提出了一种名为半二次量化（HQQ）的新型模型压缩技术，通过创新性地采用促进稀疏性的损失函数和半二次求解器，实现了无需校准数据的快速高效量化。实验表明，HQQ在Llama-2-70B等大型模型上仅需不到5分钟即可完成量化，速度较主流GPTQ方法提升50倍以上。在2位极低比特量化场景下，量化后的70B模型性能超越全精度13B模型，同时内存占用降低80%。该方法在视觉Transformer模型上也展现出优势，4位量化的ViT-B-32模型零样本准确率较传统

2025-12-17 21:02:16 951

原创【工程开发】EndoRobo-EnvAwareNav（一）

EndoRobo-EnvAwareNav是一个实时内窥镜环境感知和导航系统，采用模块化架构实现医疗内窥镜的3D重建。系统包含相机模块（图像采集与预处理）、Python接口（深度学习推理）、重建模块（点云构建与优化）和核心功能模块。数据流从图像采集开始，经过位姿/深度估计，最终构建稠密和稀疏点云并进行肠腔重建。系统采用多线程设计优化性能，支持插件式扩展和配置驱动，针对肠腔结构进行特殊处理（管状约束、中心线提取等），并包含完善的误差处理机制（置信度过滤、闭环检测）。

2025-11-03 12:36:13 722

原创多模态大规模模型概述

多模态大规模模型(MLLMs)能整合处理文本、图像、音频等数据，在医疗、金融等领域应用广泛。最新算法包括：1)基于课程采样的强化学习，动态调整训练难度提升效率；2)统一嵌入解码器，实现多模态数据统一处理；3)跨模态注意力机制，增强信息整合能力；4)混合方法结合前两者优势。未来发展方向包括扩展模型规模、提升训练效率、增强泛化能力，以及向音频、视频等新模态拓展。该领域研究受益于丰富的数据集支持，核心算法在推理能力和效率方面取得显著进展。

2025-11-03 12:33:20 905

原创【工程开发】GLM-4.1V调试

GLM-4.1V-Thinking是新一代开源视觉语言大模型（VLM），基于GLM-4-9B基座开发，支持多模态输入（最高4K分辨率图像/视频/PDF等）和64K长上下文。该模型通过RLCS强化学习显著提升推理能力，在28项评测中23项达到10B参数级别最佳。提供两种推理框架：transformers（灵活但较慢）和vLLM（高性能API服务）。微调方面，建议使用ZeRO-3策略避免训练异常，相比ZeRO-2可减少30%显存占用。模型已集成思维链推理机制，支持中英双语，并开源了训练用的VLM奖励系统。

2025-11-03 12:32:43 767

原创具身智能（一）关于VLA模型π0

Physical Intelligence公司推出的π₀模型代表了通用机器人策略领域的重大进展。这款融合视觉-语言-动作三模态的基础模型，通过8种不同机器人收集的多样化数据集训练，具备执行复杂物理任务的能力。π₀创新性地结合互联网规模预训练知识和实时动作输出功能，在衣物折叠、餐桌清理等传统难题上展现出超越专用模型的性能。测试显示，π₀在五项评估任务中均显著优于OpenVLA等现有模型。这一突破为机器人基础模型的发展开辟了新路径，预示着未来机器人将能像人类一样灵活适应物

2025-11-03 12:31:09 1127

原创【文献阅读】GLM-4.1V-Thinking: Towards Versatile Multimodal Reasoning with Scalable Reinforcement Learning

《GLM-4.1V-Thinking：基于可扩展强化学习的通用多模态推理模型》摘要：本文介绍了GLM-4.1V-Thinking，这是一款专注于提升通用多模态理解与推理能力的视觉-语言模型。研究团队通过大规模预训练构建了具备潜力的视觉基础模型，随后提出了带课程采样的强化学习（RLCS）方法，显著提升了模型在STEM问题解决、视频理解、OCR等多个任务中的表现。开源的GLM-4.1V-9B-Thinking模型在28个公开基准测试中展现出卓越性能：不仅优于同等规模的Qwen2.5-VL-7B模型，还在18个

2025-11-03 12:18:41 1045

原创 LLM面试基础（二）

用通俗的语言解释SWISH要理解 SWISH，咱们可以先把它看作 **“会‘拐弯’的信息筛选器”**—— 它和 ReLU、GELU 的核心目的一样（从模型处理的一堆信号里，挑出有用的留下），但筛选方式更 “灵活”，既不像 ReLU 那样 “一刀切”，也不像 GELU 那样依赖复杂的概率计算，而是靠一个简单的 “乘法互动” 实现 “软筛选”。

2025-11-03 12:10:12 784

原创 LLM面试基础（一）

当前主流的大模型架构主要分为三类：1）Encoder-Decoder结构（如T5、BART），擅长理解类任务；2）CausalDecoder结构（如LLaMA），适合文本生成；3）PrefixDecoder结构（如ChatGLM），在对话场景表现突出。其中Decoder-only结构凭借简单高效、适配性强等优势成为主流选择。在训练机制上，CausalDecoder对所有token计算损失，而PrefixDecoder仅对输出计算损失。归一化技术中，LayerNorm和RMSNorm用于稳定训练，DeepN

2025-09-07 22:05:03 782

原创【文献阅读】SparseGPT: Massive Language Models Can be Accurately Pruned in One-Shot

本文提出SparseGPT算法，首次实现大规模GPT模型的高效一次性剪枝。该方法能在4.5小时内完成1750亿参数模型的剪枝，达到60%稀疏度且精度损失极小。通过将剪枝问题转化为稀疏回归实例，并设计新型近似求解器，SparseGPT克服了传统方法计算成本高的问题。实验表明，该方法在OPT-175B和BLOOM-176B等超大模型上表现优异，且发现模型规模越大压缩效果越好。该算法支持半结构化稀疏模式，并能与权重量化技术结合使用，为大型语言模型的高效

2025-08-25 21:09:36 1232 1

原创【文献阅读】Lossless data compression by large models

摘要：本文提出了一种基于大型人工智能模型的无损数据压缩方法LMCompress，在文本、图像、音频和视频四种数据类型上均显著优于传统压缩算法。该方法通过特定领域的预训练模型（如iGPT、bGPT-audio等）对数据进行语义理解，生成预测概率分布后使用算术编码进行压缩。实验表明，LMCompress将JPEG-XL、FLAC和H.264等传统算法的压缩率降低了一半，文本压缩率达到zpaq的三分之一。研究验证了"理解即压缩"的核心观点，为突破香农熵限制提供了新范式，在6G通信、数据存储等领

2025-08-23 16:05:12 1435

原创【文献阅读】A Comprehensive Study on Quantization Techniques for Large Language Models

大型语言模型量化技术研究综述摘要：本文系统研究了大型语言模型(LLM)的量化技术，旨在解决模型计算需求大与资源受限设备部署之间的矛盾。研究表明，通过降低模型参数精度可显著减小存储需求，如GPT-3从350GB降至90GB。研究比较了训练后量化(PTQ)和量化感知训练(QAT)两种主要方法，分析了仿射/尺度量化、量化粒度等关键技术。重点探讨了GPTQ和LLM-QAT等先进算法，显示在4比特精度下可实现接近原始模型的性能。研究发现，选择合适的量化精度对保持模型性能至关重要，未来研究应进一步优化精度配置策略，以

2025-08-23 15:21:30 1031

原创【文献阅读】Advances and Challenges in Large Model Compression: A Survey

摘要：随着大模型在AI领域的广泛应用，其庞大的参数量和计算需求成为资源受限环境部署的主要瓶颈。本文系统综述了大模型压缩技术（剪枝、知识蒸馏、量化、低秩分解等）的进展与挑战，分析其在保持性能的同时减小模型规模的关键方法。研究指出，当前技术仍面临压缩与性能平衡、策略优化及新模型适配等挑战，未来需开发智能轻量化框架、探索跨模态压缩及可解释性结合等方向。该综述为推进高效AI模型部署提供了重要参考。关键词：大模型；模型压缩；人工智能；轻量化

2025-08-22 22:22:17 830

原创【文献阅读】A review of state-of-the-art techniques for large language model compression

摘要：大型语言模型（LLMs）的快速发展推动了自然语言处理领域的重大进步，但其大规模部署仍面临计算、内存和能效等挑战。本文系统综述了剪枝、量化、知识蒸馏和神经架构搜索（NAS）等最先进的压缩技术，这些技术可有效减小模型规模、提高推理速度并降低能耗。研究提出了一个整合传统指标（如准确率和困惑度）与高级标准（延迟-准确率权衡、参数效率、多目标优化等）的评估框架，并探讨了公平感知压缩、对抗性鲁棒性和硬件特定优化等前沿趋势。文章还分析了NAS驱动的自适应架构设计方法，以及混合压缩策略在不同部署场景中的应用。通过案例

2025-08-22 15:26:13 1180

原创【文献阅读】SPHINX-X: Scaling Data and Parameters for a Family of Multi-modal Large Language Models

SPHINX-X：扩展多模态大语言模型的数据与参数规模摘要：本文提出SPHINX-X，一个基于SPHINX框架扩展的多模态大语言模型(MLLM)系列。通过简化架构和训练流程，包括移除冗余视觉编码器、采用可学习跳过标记处理无效子图像，以及将多阶段训练简化为单阶段一体化范式，显著提升了训练效率。研究整合了涵盖语言、视觉和跨模态任务的多样化公开数据集，并特别构建了两个专用数据集：OCR密集型数据集增强文本识别能力，Set-of-Mark数据集提升细粒度视觉理解。实验表明，在参数规模从1.1B到8×7B的不同基础

2025-08-03 15:59:05 946

原创【文献阅读】Surgical embodied intelligence for generalized task autonomy in laparoscopic robot-assisted

摘要： 2025年7月，SCIENCE ROBOTICS发表研究，提出基于具身智能的手术机器人自主化框架VPPV，通过开源模拟器SurRoL实现腹腔镜手术任务的通用自动化。该框架整合视觉解析、强化学习策略与经典控制器，成功在达芬奇机器人（dVRK）和商业化系统（Sentire）上完成7项技能训练与5项手术辅助任务（如针头抓取、软组织牵开），并实现零样本模拟到现实迁移。离体动物实验成功率最高达95%，活体猪试验验证了监督自主性的可行性。研究为手术机器人自主化提供了开源基础设施与通用学习范式，推动AI与经典控制

2025-07-29 12:02:29 1366

原创 FP16 和 BF16

FP16和BF16是两种16位浮点数格式，用于深度学习以节省计算资源。FP16（5位指数+10位尾数）节省显存但易数值溢出，适合推理；BF16（8位指数+7位尾数）动态范围接近FP32，更适合训练，尤其在大模型中。微调大模型时，优先选择BF16（硬件支持前提下），因其稳定性更高；若硬件不支持，可用FP16配合混合精度技术（FP16计算+FP32主权重更新）。混合精度通过损失缩放和梯度裁剪避免FP16的数值问题，而BF16无需额外处理。实际应用中需结合基座模型精度、硬件兼容性及任务需求选择，并监控训练

2025-07-25 16:22:59 1517

原创【经验】bitsandbytes安装-LLAVA-1.5库调试

【环境配置问题摘要】在H100显卡（Ubuntu 20.04/CUDA 12.1&12.6）运行LLaVA-1.5时出现bitsandbytes库兼容性问题。错误显示系统无法找到匹配的CUDA运行时库（libcudart.so.11.0/12.0），且检测到路径冲突和非预期目录。尝试通过降级到CUDA 11.8和PyTorch 2.0.0+cu118解决，但后续出现FlashAttention的libc10.so和libcudart.so.11.0缺失问题。临时方案包括：添加LD_LIBRARY_P

2025-06-28 19:25:54 1033

原创迈向泛在智能：端侧大语言模型现状与展望

近年来，大语言模型技术在多个领域取得了突破性进展，为实现泛在智能提供了坚实的基础。然而，泛在智能要求在各种场景中实现无缝的智能体验，这对大语言模型的部署和应用提出了新的挑战。云上部署大模型时，面临实时性、安全性和个性化需求难以兼顾的问题，限制了其在不同环境中的适用性。这些挑战促使研究者探索端侧部署大语言模型的前景，以期在更接近数据源的位置实现更高效的智能服务。然而，端侧的资源限制为大语言模型的部署、推理与应用带来了严峻的挑战。本文首先探讨了这些挑战，并系统梳理了端侧大模型部署与推理应用的关键技术进展，包括模

2025-06-10 11:49:16 1418

原创【经验】安装apex库

摘要：为在H800 GPU（计算能力9.0）上运行LLaMA2-Accessory项目，需解决PyTorch版本与CUDA兼容性问题。原环境使用CUDA 11.7和PyTorch 2.0.1（仅支持最高sm_86架构），与H800不兼容。解决方案包括：卸载旧版PyTorch，安装支持CUDA 12.1的PyTorch 2.3.0，并通过多CUDA版本共存管理切换运行环境。最终使用特定编译命令成功安装apex库，验证新环境支持H800的计算能力。整个过程涉及CUDA版本管理、PyTorch版本适配和apex库

2025-06-07 14:30:00 1087 2

原创【文献阅读】LLaVA-med: training a large language-and-vision assistant for biomedicine in one day

会话式生成式人工智能在赋能生物医学从业者方面已展现出显著潜力，但当前研究主要集中于单模态文本。多模态会话式人工智能通过利用公共网络上数十亿的图像 - 文本对取得了快速进展，但此类通用领域的视觉 - 语言模型在理解和讨论生物医学图像方面仍不够成熟。在本文中，我们提出了一种经济高效的方法来训练视觉 - 语言会话助手，该助手能够回答关于生物医学图像的开放式研究问题。关键思想是利用从 PubMed Central 提取的大规模、覆盖广泛的生物医学图注数据集，使用 GPT-4 从图注中自动生成遵循开放式指令的数据

2025-06-05 20:39:07 1301

原创【文献阅读】SPHINX-X: Scaling Data and Parameters for a Family of Multi-modal Large Language Models

我们提出 SPHINX-X，这是基于 SPHINX 开发的扩展多模态大型语言模型（MLLM）系列。为改进架构和训练效率，我们对 SPHINX 框架进行修改，移除冗余视觉编码器，通过跳过标记绕过全填充子图像，并将多阶段训练简化为单阶段全集成范式。为充分释放 MLLM 的潜力，我们整合了覆盖语言、视觉和视觉 - 语言任务公开资源的综合性多领域多模态数据集。我们进一步用精心策划的 OCR 密集型和标记集（Set-of-Mark）数据集丰富该集合，扩展其多样性和通用性。通过在包括 TinyLlama1.1B

2025-06-05 16:31:41 1162

原创【文献阅读】（LLAVA-1.5）Improved Baselines with Visual Instruction Tuning

大型多模态模型（LMM）最近通过视觉指令调优展现出令人鼓舞的进展。在本文中，我们首次在 LLaVA 框架下的可控环境中系统研究了 LMM 的设计选择。我们发现，LLaVA 中全连接的视觉 - 语言连接器出人意料地强大且数据高效。通过对 LLaVA 进行简单修改，即使用带有 MLP 投影的 CLIP-ViT-L-336px 视觉编码器，并添加带有响应格式提示的学术任务导向 VQA 数据，我们建立了更强的基线，在 11 个基准测试中均达到了最先进水平。我们最终的 130 亿参数检查点仅使用 120 万公开可用数

2025-06-05 14:53:07 927

原创【文献阅读】Minigpt-v2 large language model as a unified interface for vision-language multi-task learning

大型语言模型已展现出作为各类语言相关应用通用接口的卓越能力。受此启发，我们旨在构建一个统一接口，以完成图像描述、视觉问答和视觉接地等多项视觉语言任务。实现这一目标的挑战在于使用单一模型通过简单的多模态指令高效执行多样化的视觉语言任务。为解决这一问题，我们引入 MiniGPT-v2，该模型可作为统一接口以更好地处理各种视觉语言任务。我们提出在训练模型时为不同任务使用唯一标识符。这些标识符使我们的模型能够轻松区分每个任务指令，还能提高模型对每个任务的学习效率。经过三阶段训练，实验结果表明，与其他视觉语言通用

2025-06-05 11:59:40 829

原创【文献阅读】Qwen2-vl: Enhancing vision-language model‘s perception of the world at any resolution

我们提出了 Qwen2-VL 系列，这是对先前 Qwen-VL 模型的高级升级，重新定义了视觉处理中传统的预定分辨率方法。Qwen2-VL 引入了原生动态分辨率机制，使模型能够将不同分辨率的图像动态处理为不同数量的视觉标记。这种方法使模型能够生成更高效、准确的视觉表示，紧密贴合人类感知过程。模型还集成了多模态旋转位置嵌入（M-RoPE），促进文本、图像和视频的位置信息有效融合。我们采用统一范式处理图像和视频，增强了模型的视觉感知能力。为探索大型多模态模型的潜力，Qwen2-VL 研究了大型视觉语言模

2025-06-04 19:00:43 835

原创【文献阅读】LLaVA-Surg: towards multimodal surgical assistant via structured surgical video learning

多模态大型语言模型（LLMs）在各个领域取得了显著成功，但医学领域的研究主要集中在单模态图像上。与此同时，当前用于视频的通用领域多模态模型仍然缺乏理解手术视频并进行对话的能力。一个主要原因是手术领域缺乏相关数据集。在本文中，我们创建了一个新的数据集 Surg-QA，由 102,000 个手术视频 - 指令对组成，是迄今为止同类数据集中最大的。为了构建该数据集，我们提出了一种新颖的两阶段问答生成管道，利用 LLM 从公开的手术讲座视频中以结构化方式学习手术知识。该管道将生成过程分解为两个阶段，显著降低

2025-06-04 13:29:46 945

原创【文献阅读】Biomedgpt: A unified and generalist biomedical generative pre-trained transformer for

传统生物医学人工智能（AI）模型专为特定任务或模态设计，在实际部署中灵活性有限，且难以利用整体信息。通用 AI 因其在解释不同数据类型和为多样化需求生成定制输出方面的多功能性，有望解决这些局限性。然而，现有的生物医学通用 AI 解决方案通常对研究人员、从业者和患者来说是重量级且闭源的。在此，我们提出 BiomedGPT，这是首个开源且轻量级的视觉 - 语言基础模型，设计为能够执行各种生物医学任务的通用模型。BiomedGPT 在 25 项实验中的 16 项中取得了最先进的结果，同时保持了计算友好的模

2025-06-03 21:11:46 1488

原创【文献阅读】SPHINX: A Mixer of Weights, Visual Embeddings and Image Scales for Multi-modal Large Language

我们提出了SPHINX，这是一种通用多模态大型语言模型（MLLM），实现了模型权重、视觉嵌入和图像尺度的联合混合。首先，为了增强视觉-语言对齐，我们在预训练期间解冻大型语言模型（LLM），并引入了由真实世界和合成数据训练的LLM之间的权重混合策略。通过直接集成来自两个领域的权重，混合后的LLM可以高效融合多样化语义并具备良好的鲁棒性。其次，我们建议从各种网络架构、预训练范式和信息粒度中提取全面的视觉嵌入，为语言模型提供更鲁棒的图像表示。我们进一步提出一种有效策略，旨在更好地捕捉高分辨率图像的细粒度外

2025-06-02 21:52:50 1226

原创【文献阅读】Learning Transferable Visual Models From Natural Language Supervision

最先进的计算机视觉系统经过训练，可预测一组固定的预先确定的对象类别。这种受限的监督形式限制了它们的通用性和可用性，因为指定任何其他视觉概念都需要额外的标记数据。直接从关于图像的原始文本中学习是一种很有前途的替代方法，它利用了更广泛的监督来源。我们证明，预测哪个标题与哪个图像匹配这一简单的预训练任务，是一种从互联网收集的 4 亿（图像，文本）对数据集上从头开始学习最先进图像表示的有效且可扩展的方法。预训练后，自然语言用于引用已学习的视觉概念（或描述新概念），使模型能够零样本迁移到下游任务。我们研究了

2025-06-02 16:45:51 1920

原创【文献阅读】Surgical-VQA: Visual Question Answering in Surgical Scenes using Transformer

手术中的视觉问答（VQA）研究目前仍处于起步阶段。专业外科医生资源稀缺，且常被临床和学术工作压身，这使得他们难以及时回答患者、医学生或低年住院医师关于手术流程的疑问。有时，学生和低年住院医师为避免打断课堂，也会克制提问。尽管已有计算机辅助模拟器和过往手术录像供他们观察和提升技能，但答疑仍高度依赖医学专家。若能有一个可靠的 “Surgical-VQA 系统” 作为 “第二意见”，既能为专家分担答疑压力，又能为学习者提供支持。然而，标注医疗数据的匮乏和领域特定术语的存在，限制了手术流程 VQA 的研究进展。在此

2025-05-31 19:08:31 1168

原创 SmolVLM2: The Smollest Video Model Ever（七）

表示你调用 OpenAI API 时达到了组织（organization）的请求速率限制（RPM，Requests Per Minute，每分钟请求数）。的请求速率达到了上限（最大 RPM 为 3），需要等待 1 秒钟后再尝试。成本上来讲，kimi应该是更便宜一些，还免费送了15块钱。解决：在调用的时候加一个计时器去限制一下。错误信息中明确指出你的账号所在组织。总的来说，kimi输出的起码。# 保存模型到本地指定目录。

2025-05-29 16:06:39 1041

暂存2111111111111111111111

模型框图20251015

gkd人工智能学院图像处理期末考试复习试卷

gkd计算机学院算法设计与分析刘老师课后习题+答案完整版2020

1 第一讲 2021-AI-Index-Report_Master 等.zip

python机器学习基本算法pdf讲解

空空如也