自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

做cv的小昊的博客

一枚cv方向的研究生,zzu->tju

  • 博客(76)
  • 资源 (1)
  • 收藏
  • 关注

原创 结合代码读3DGS论文(10)——ICLR 2025 3DGS加速&压缩新工作Sort-Free 3DGS论文及代码解读

本文介绍了发表在ICLR 2025的无需排序3D高斯泼溅(Sort-Free 3DGS)论文,通过加权求和渲染替代传统的alpha混合操作,显著提升了渲染效率。该方法消除了排序需求,简化了实现流程,在移动设备GPU上实现了1.23倍的加速,同时避免了去除排序可能导致的跳变伪影。论文创新性地结合了顺序无关透明性(OIT)思想,引入可学习的视角相关不透明度参数,在保持图像质量的前提下优化了渲染管线。

2026-03-23 23:47:26 360 1

原创 【TJU】应用统计学——第二周作业

该文档为应用统计学课程的第二周作业,包含题目及详细解答。题目涉及概率分布转换(如均匀分布转换为指数分布)、统计量分布推导(如卡方分布、t分布、F分布)以及指数型分布族的判别。通过概率论与数理统计知识,详细论证了各统计量的分布特性,并给出正确答案。典型问题包括:由均匀分布X推导Y=-lnX的分布(结果为Exp(1))、样本组合统计量服从t分布的条件判断,以及判断均匀分布不属于指数型分布族等。解答过程严谨,运用了分布函数、独立性和统计量构造等核心统计方法。

2026-03-23 16:41:57 179

原创 【Video Agent】(Arxiv2504)VideoExpert: Augmented LLM for Temporal-Sensitive Video Understanding

本文介绍VideoExpert,一种增强型多模态大语言模型(MLLM),用于时间敏感的视频理解任务。现有MLLM在时序定位等任务上表现不佳,主要依赖语言模式而非视觉线索生成时间戳。VideoExpert创新性地集成两个并行专家模块:Temporal Expert处理高帧率压缩特征以捕捉动态变化并实现精确事件定位;Spatial Expert专注于内容细节分析和指令跟随。通过特殊token <LOC>实现协作,参数解耦设计避免相互干扰。此外,引入Spatial Compress模块筛选压缩patc

2026-03-18 16:12:00 322

原创 【Video Agent】(Arxiv2508)Video-EM: Event-Centric Episodic Memory for Long-Form Video Understanding

Video-EM提出了一种基于事件的情景记忆框架,用于解决长视频理解中的关键帧冗余和叙事碎片化问题。该方法通过多粒度语义匹配定位相关时刻,将其组织为时间连贯的事件,并编码为具身情景记忆(包含时空线索和实体信息)。通过推理驱动的自反思循环,系统迭代优化事件粒度,去除冗余,最终生成紧凑可靠的事件时间线。实验表明,Video-EM在使用更少帧数的情况下,显著提升了长视频问答性能,且兼容现有视频大语言模型,无需额外训练。该工作为长视频理解提供了新范式,超越了传统帧级检索方法。

2026-03-17 08:56:35 318

原创 大语言模型系统:【CMU 11-868】课程学习笔记06——Transformer学习(Transformer)

本文总结了CMU 11-868课程中Transformer架构的核心内容。Transformer采用编码器-解码器结构,通过自注意力机制实现并行计算和全上下文捕捉。关键组件包括词嵌入、位置编码、多头注意力(通过缩放点积计算并分割多个头)、前馈网络(含ReLU激活)以及残差连接与层归一化。解码器使用掩码注意力防止信息泄露。训练采用交叉熵损失函数,原始模型配置为6层编码/解码器,512/1024维嵌入。相比传统RNN,Transformer具有更好的并行性和长程依赖建模能力,是大语言模型的基础架构。

2026-03-16 23:16:54 360

原创 结合代码读3DGS论文(9)——ICLR 2026 3DGS加速&压缩新工作 Mobile-GS论文及代码解读

Mobile-GS提出了一种面向移动设备的实时3D高斯泼溅(3DGS)方法,通过深度感知的无序渲染、球谐蒸馏、神经向量量化和贡献剪枝等创新技术,在移动设备上实现了116FPS的实时渲染。该方法消除了传统3DGS中耗时的深度排序过程,显著降低了计算开销和存储需求(压缩至4.8MB),同时保持了与原始方法相当的视觉质量。实验证明Mobile-GS在移动端具有高效部署的可行性,为AR/VR等应用提供了新的解决方案。

2026-03-16 17:11:15 547

原创 【Video Agent】(Arxiv2601,Meta)Agentic Very Long Video Understanding

本文介绍Meta新作EGAgent。EGAgent是一种基于实体场景图的智能体框架,用于解决超长视频理解任务。该方法通过构建人物、物体和地点之间的时空关系图,结合视觉和音频搜索工具,实现对连续数天视频的多模态推理。实验表明,EGAgent在EgoLifeQA和Video-MME(Long)数据集上分别达到57.5%和74.1%的准确率,显著优于现有方法。该研究为可穿戴设备AI助手的长时记忆和推理能力提供了有效解决方案。

2026-03-15 21:19:46 495

原创 【Video Agent】(Arxiv2601)VideoThinker: Building Agentic VideoLLMs with LLM-Guided Tool Reasoning

VideoThinker提出了一种基于合成工具交互轨迹训练的智能体式视频大语言模型(VideoLLM),旨在解决长视频理解中的信息丢失和时间定位问题。该方法通过将视频转换为文本描述,利用大语言模型生成多步工具使用序列,再映射回真实视频帧,构建交错式视频推理数据集。设计了时间检索和时间缩放两类工具,支持动态推理和自适应时间探索。实验表明,VideoThinker在长视频基准上显著优于现有方法,验证了工具增强合成数据和自适应推理的有效性。

2026-03-15 13:41:48 455

原创 大语言模型系统:【CMU 11-868】课程学习笔记05——深度学习框架设计(Deep Learning Framework Design)

CMU 11-868课程笔记05探讨了深度学习框架设计的关键要素。以TensorFlow为例,分析了其核心设计理念:通过数据流图表达机器学习计算,支持张量运算、自动微分和分布式训练。课程对比了主流框架(PyTorch、TensorFlow、JAX)在编程范式、硬件支持等方面的差异,并详细讲解了计算图中的变量节点、占位符和运算节点的实现机制。笔记还阐述了深度学习框架的设计原则,包括两阶段执行(定义程序+优化执行)和动态流控制支持。这些内容为构建高效的大语言模型系统提供了理论基础和实践指导。

2026-03-11 22:40:27 345

原创 【Video Agent】(CVPR 2026)LongVT: Incentivizing “Thinking with Long Videos” via Native Tool Calling

本文介绍CVPR 2026提出的LongVT框架,通过交错式多模态工具思维链(iMCoTT)实现长视频理解。受人类全局浏览-局部验证策略启发,LongVT利用大模型原生时间定位能力作为视频裁剪工具,通过循环推理聚焦关键片段并减少幻觉。针对长视频推理中细粒度数据稀缺问题,作者构建了VideoSIAH数据集(包含26.5万样本)和评测基准,采用冷启动SFT+智能体RL+强化微调三阶段训练策略,在联合答案-时间定位奖励下优化模型。

2026-03-11 20:07:40 655

原创 大语言模型系统:【CMU 11-868】课程学习笔记04——学习算法和自动微分(Learning algorithm and Auto Differentiation)

本文介绍了CMU 11-868课程中关于神经网络学习算法和自动微分的关键内容。首先阐述了神经网络的基本结构和分类任务的训练损失计算,重点讨论了梯度下降和随机梯度下降算法。其次详细讲解了计算图的概念及其在前向计算和反向传播中的作用,包括拓扑排序的实现方法。最后介绍了自动微分技术,说明如何利用计算图和链式法则高效计算梯度。这些内容为理解深度学习框架的设计原理和实现机制奠定了基础,是构建大语言模型系统的重要知识。

2026-03-08 20:47:58 293

原创 大语言模型系统:【CMU 11-868】课程学习笔记03——GPU编程基础2(GPU Programming Basics 2)

本文介绍了CMU 11-868课程中GPU编程基础的核心内容,重点讲解CUDA内核执行机制、内存管理和线程创建方法。课程涵盖GPU内存分配(cudaMalloc)、数据传输(cudaMemcpy)和释放(cudaFree)操作,详细说明如何通过__global__定义内核函数并配置线程网格。文章还演示了向量加法和矩阵乘法等典型GPU计算任务的实现方法,包括线程索引计算和块/网格维度设置。这些技术为后续深度学习框架设计和大语言模型系统开发奠定基础。

2026-03-08 20:46:57 317

原创 大语言模型系统:【CMU 11-868】课程学习笔记02——GPU编程基础1(GPU Programming Basics 1)

本文介绍了CMU 11-868课程中关于GPU编程基础的内容,重点探讨了神经网络层的核心计算单元及其底层算子,包括矩阵乘法、元素级操作等。文章详细分析了现代GPU服务器的硬件配置与组件功能,对比了CPU与GPU架构差异,并阐述了GPU的SIMT执行模式。通过CUDA编程模型,说明了主机与设备间的数据传输机制,以及内核线程的组织与调度方式,为深度学习系统的高效实现提供了理论基础。

2026-03-08 20:45:19 379

原创 【Video Agent】(NeurIPS 2025,代码解读已更新)Vgent: Graph-based Retrieval-Reasoning-Augmented Generation ...

本文介绍NeurIPS 2025论文Vgent,一种基于图的检索-推理增强生成框架,用于提升大型视频语言模型(LVLMs)的长视频理解能力。针对现有方法在处理长视频时存在的时序依赖破坏和无关信息干扰等问题,Vgent通过构建结构化视频图表示(保留片段间语义关系)和引入中间推理步骤(验证检索结果并聚合跨片段信息)来实现更准确的视频理解。实验表明,Vgent在多个基准上显著优于现有方法,性能提升达3.0%-8.6%。该工作为长视频理解提供了有效的解决方案,相关代码已开源。

2026-03-08 19:15:18 384

原创 【Video Agent】(NeurIPS 2025)VideoLucy: Deep Memory Backtracking for Long Video Understanding

本文介绍NeurIPS 2025发表的VideoLucy论文,VideoLucy通过层次化记忆结构和迭代回溯机制解决长视频理解的两大挑战。受人类记忆启发,该系统采用渐进细化的记忆层级,在不同时间范围内动态调整细节粒度。通过多智能体协作的迭代回溯过程,VideoLucy能够全面覆盖视频内容并捕捉时序关系。实验表明,该框架在多个基准上超越现有方法,包括GPT-4o等专有模型。同时提出的EgoMem基准(平均时长6.33小时的42个视频)为长视频理解提供了更全面的评估标准。

2026-03-08 16:55:02 390

原创 大语言模型系统:【CMU 11-868】课程学习笔记01——大模型介绍(Introduction to LLM)

【CMU 11-868】课程面向研究生开设,聚焦“从算法到工程”的大语言模型系统构建全过程。GPU 编程与自动微分:掌握 CUDA kernel 调用、并行编程基础,以及深度学习框架设计原理模型训练与分布式系统:学习高效的训练算法、通信优化(ZeRO、FlashAttention)、分布式训练框架(DDP、GPipe、Megatron-LM)。模型压缩与加速:量化(GPTQ)、稀疏化(MoE)、编译技术(JAX、Triton)、以及推理时的服务化设计(vLLM、CacheGen)。

2026-03-07 23:21:40 378

原创 【Video Agent】(NeurIPS 2025)Deep Video Discovery: Agentic Search with Tool Use for Long-form Video ..

本文介绍NeurIPS2025提出的Deep Video Discovery(DVD)智能体,用于解决长视频理解中的时空复杂性挑战。该方法将长视频分割为多粒度数据库,并设计三种搜索工具(Global Browse、Clip Search、Frame Inspect),使智能体能自主规划搜索策略。实验表明,DVD在LVBench上达到74.2%的准确率(结合转录后76.0%),显著优于现有方法。该工作突破了固定流程的限制,实现了自适应长视频理解。

2026-03-07 23:18:33 566

原创 【Video Agent】(CVPR 2025)DrVideo: Document Retrieval Based Long Video Understanding

本文介绍CVPR 2025最新工作DrVideo,一种基于文档检索的长视频理解框架,旨在解决现有方法在处理长视频时面临的关键信息定位和长距离推理难题。DrVideo将长视频转换为文本文档,通过检索模块定位关键帧,并利用多阶段智能体交互循环动态补充缺失信息。该方法在EgoSchema(3分钟)、MovieChat-1K(10分钟)和Video-MME(平均44分钟)基准上显著优于现有技术,最高提升24.8%。

2026-03-06 23:35:39 495

原创 结合代码读3DGS论文(8)——CVPR 2026 3DGS加速&压缩新工作 Faster-GS论文及代码解读

本文介绍CVPR2026Faster-GS方法,系统整合并评估了3D高斯重建(3DGS)领域的最新优化技术。通过改进内存访问模式、融合梯度计算与参数更新等创新方法,在保持重建质量的同时实现了最高5倍的训练加速和30%的显存节省。研究特别关注了数值稳定性、高斯截断等此前较少探索的方面,并展示了该方法在4D动态场景重建中的扩展性。实验结果表明,Faster-GS为3DGS优化建立了新的高效基线,平均训练时间仅需163秒,显著降低了计算资源需求。

2026-03-06 22:08:23 401

原创 【Video Agent】(CVPR 2025,代码解读已更新)VIDEOTREE: Adaptive Tree-based Video Representation ...

本文介绍CVPR2025 VIDEOTREE论文并对论文代码进行详细解读,通过自适应树结构表示解决长视频理解中的信息冗余和层次结构缺失问题。该方法采用无需训练的方式,首先通过迭代聚类和相关性评分动态选择查询相关的关键帧(自适应宽度扩展),然后构建层次化树结构整合多粒度信息(相关性引导深度扩展)。实验表明,该方法在EgoSchema、NExT-QA和Video-MME等数据集上优于现有方法,在减少推理时间的同时提升准确率,且无需视频专用训练。VIDEOTREE有效解决了长视频理解中的信息过载和细粒度捕捉难题。

2026-03-05 11:40:15 587

原创 【Video Agent】(ECCV 24)VideoAgent: Long-form Video Understanding with Large Language Model as Agent

本文介绍ECCV2024工作VideoAgent,一种基于大语言模型(LLM)的智能体系统,用于长视频理解。受人类认知过程启发,该系统通过LLM控制迭代式信息检索与整合:先采样初始帧获取视频概览,再根据置信度评估动态检索关键帧,使用CLIP进行高效片段级检索,并利用视觉语言模型转换视觉信息。在EgoSchema和NExT-QA基准测试中,VideoAgent仅用8帧左右即达到54.1%和71.3%的零样本准确率,显著优于现有方法,展示了智能体方法在长视频理解中的高效性与潜力。

2026-03-04 21:56:03 404

原创 (开源项目)当我用Codex修复本科做的双创项目...研梦:基于Django+Vue的考研信息化平台(论坛发帖、新闻资讯、爬虫趋势)

研梦是一个基于Django+Vue的考研信息化平台开源项目,提供论坛发帖、新闻资讯、爬虫趋势分析等功能。项目采用前后端分离架构,包含用户中心、内容管理、趋势词云可视化等模块,支持完整的考研信息获取与交流闭环。核心亮点包括Django Admin后台管理系统、完善的接口文档和低维护成本设计。项目结构清晰,提供详细的中英文README文档和演示账号,适合作为课程项目或毕业设计二次开发。开发者还分享了使用Codex工具修复项目的过程,包括替换失效链接、补全素材和脱敏处理等操作。

2026-03-03 16:52:19 1270

原创 3DGS加速&压缩指标评测方法、高斯数量变化曲线绘制——Training Time、FPS、Gaussian Number、Peak Memory

本文整理了3D高斯泼溅(3DGS)加速与压缩的指标评测方法,包括训练时间、渲染帧率(FPS)、高斯数量和GPU峰值显存占用等关键指标。通过修改官方3DGS代码,精确统计训练过程中的迭代时间、致密化操作时间,并计算总训练时间。同时提供渲染帧率测试方法,通过记录渲染总时间计算平均FPS。此外,还展示了如何获取训练后的高斯点云数量和使用PyTorch工具测量GPU峰值显存占用。这些评测方法可为3DGS加速与压缩研究提供标准化的性能评估依据,适用于各种基于3DGS改进的算法框架。

2026-01-16 21:32:43 746

原创 结合代码读3DGS论文(7)——ICCV 2025 3DGS加速&压缩新工作Faster and Better 3D Splatting via Group Training论文及代码解读

ICCV 2025这篇文章提出了一种新颖的3D高斯溅射(3DGS)分组训练方法,通过将高斯基元划分为训练组和缓存组来优化训练效率。该方法采用基于不透明度的优先采样策略,有效减少冗余基元生成,在保持渲染质量的同时提升30%训练速度。实验证明该方法与现有3DGS框架兼容,显著改善场景重建效率和视图合成质量。关键创新包括循环缓存机制和数学验证的不透明度采样策略,为3DGS训练提供了高效解决方案。

2026-01-13 17:53:37 732

原创 【TJU】信息检索与分析课程笔记和练习(10)专利文献和中文专利检索

本文介绍了专利文献的基本概念、构成要素及特点。专利文献包括专利说明书、权利要求书等文件,具有技术、法律和经济三重属性。其特点体现在内容广泛、传播快速、格式统一标准化,并存在重复公开现象。重点解析了专利族的分类,包括简单专利族、复杂专利族等不同类型,通过示例说明了基于优先权的专利族划分方法。文章还概述了专利合作条约(PCT)的优势,为跨国专利申请提供了便利。整体呈现了专利文献作为重要信息源的多维价值。

2026-01-10 11:41:32 732

原创 【TJU】信息检索与分析课程笔记和练习(8)(9)发现系统和全文获取、专利与知识产权基本知识

本文介绍了信息检索与分析课程中关于发现系统和全文获取的知识。主要内容包括:1)读秀、百链、超星发现等发现系统的功能特点;2)全文获取途径(订购数据库、馆藏资源、文献传递、OA资源等);3)开放获取(OA)资源的类型(金色OA、绿色OA)及主要平台(Arxiv、CogPrints等);4)机构知识库的应用。此外还介绍了专业检索的语法规则和逻辑运算符使用方法。文章为学术资源检索提供了实用指导。

2026-01-08 17:49:41 955

原创 【TJU】信息检索与分析课程笔记和练习(7)数据库检索—Ei

本文介绍了工程领域重要检索工具Ei(Engineering Index)及其网络版Ei Compendex的使用方法。主要内容包括:1)Ei平台简介,涵盖工程、应用科学领域的文献资源;2)检索方式,详细说明快速检索、高级检索、叙词检索等功能;3)检索规则,解释逻辑算符、词干检索、截词符等语法;4)字段说明,如标题、作者、机构等检索入口;5)索引工具和叙词表的使用。文章通过图文结合的方式,系统讲解了Ei数据库的检索技巧和注意事项,为工程领域学术研究提供实用的文献检索指导。

2026-01-07 16:36:41 1102

原创 【TJU】信息检索与分析课程笔记和练习(6)英文数据库检索—web of science

本文介绍了Web of Science数据库的检索方法与功能。Web of Science是一个综合性学术资源平台,包含SCIE、SSCI、AHCI等核心子库,收录期刊、会议论文等多种文献类型。文章详细讲解了数据库的登录方式、检索规则(包括逻辑算符、通配符使用等)、各检索字段(主题、作者、地址等)的操作技巧,以及被引参考文献检索等特色功能。该数据库支持词形还原和词干检索,提供多种检索限定条件,是开展学术研究的重要工具。

2026-01-06 21:20:14 974

原创 【TJU】信息检索与分析课程笔记和练习(5)中文文献检索—万方

本文介绍了万方数据库的基本概况与检索方法。主要内容包括:1)万方数据库资源类型丰富,涵盖期刊、学位论文、会议文献等10余种学术资源;2)提供简单检索、高级检索、专业检索等多种检索方式,支持布尔逻辑运算;3)检索结果可进行聚类分析、批量导出参考文献(最多500条)及下载全文;4)通过实例演示了CNKI和万方的具体检索操作,包括作者发文检索、学科期刊统计等。文章为信息检索课程提供了实用的中文文献检索指导。

2025-12-29 17:07:00 990

原创 【TJU】学术交流英语期末上机考试模拟题整理

大多数新技术(除了那些与武器相关的技术外),都对大多数人产生了巨大的有益影响,它们扩展了我们的能力,甚至延长了我们的寿命,其程度是我们的祖先所无法想象的。正是这些人,顶住了无数的否定与嘲讽,最终实现了他们的梦想,甚至取得了更多成就。电子文件正在取代传统的文件柜,同时,智能传真机和复印机不断出现,还有各种各样的打印机,能够打印从高质量文字到四色图表的各种内容。大众媒体所提供的并不是大众艺术,而是一种娱乐,这种娱乐被设计成像食物一样被消费、被遗忘,然后再被新的“菜肴”所取代。我们的文化推崇的是从众,而非个性。

2025-12-27 15:39:21 639

原创 【TJU】信息检索与分析课程笔记和练习(4)中文文献检索—CNKI

本文介绍了中国知网(CNKI)的基本使用方法和检索技巧。主要内容包括:CNKI作为国内最大的学术资源平台,包含期刊、学位论文等各类数据库;详细讲解了多种检索方式(简单检索、跨库检索、高级检索等)及操作步骤;重点说明了检索结果的处理功能,如聚类分析、可视化分析、参考文献导出等;最后展示了CNKI新推出的AI检索功能。全文通过图文结合的方式,为读者提供了CNKI数据库的实用操作指南。

2025-12-24 16:26:11 966

原创 计算机图形学:【Games101】学习笔记05——着色(插值、高级纹理映射)与几何(基本表示方法)

本文摘要:GAMES101 学习笔记05聚焦图形学中的着色与几何处理技术。着色部分详细介绍了重心坐标插值方法及其在三角形属性平滑过渡中的应用,包括纹理坐标、颜色等属性的插值计算。纹理映射章节解析了双线性插值等纹理放大技术,以及处理摩尔纹和锯齿问题的方案。几何部分则阐述了基本表示方法。通过数学公式和图示,系统讲解了从物体表面着色到几何建模的核心算法与实践要点,为图形渲染提供了关键技术支撑。

2025-12-22 17:09:03 946

原创 【TJU】信息检索与分析课程笔记和练习(3)学术评价

本文系统介绍了学术评价的基本概念、方法和应用。主要内容包括:1)学术评价的两种基本方法:基于内容的评价和基于形式的评价;2)期刊学术影响力评价体系,如核心期刊、SCIE收录期刊等,详细阐述了期刊影响因子、JCR分区和中科院分区等评价指标;3)国内重要学术评价数据库CSCD和CSSCI的特点与应用。文章通过具体案例和数据展示了各类评价指标的实际应用,为学术研究和期刊评价提供了重要参考。

2025-12-20 11:45:23 1135

原创 【TJU】信息检索与分析课程笔记和练习(2)信息检索原理

本文系统介绍了信息检索的基本原理与方法。主要内容包括:1)信息检索的定义与类型(手工检索与计算机检索);2)检索的六个基本步骤:准备、选择数据库、制定策略、调整策略、筛选文献、获取全文;3)检索策略编制要点,重点讲解了检索词选择(切分、删除、补充)和布尔逻辑算符(与、或、非)的使用;4)通过"工农业废水循环利用"实例演示完整检索流程。文章配有多个检索界面示意图,详细说明了从课题分析到检索式构建的全过程。

2025-12-19 11:50:53 906

原创 【TJU】信息检索与分析课程笔记和练习(1)认识文献

按文献信息的出版形式可以划分为:图书、期刊、报纸、专利、标准、学位论文、科技报告、会议论文、政府出版物、产品样品资料 、技术档案。1、图书定义:联合国教科文组织对图书的定义:凡由出版社(商)出版的不包括封面和封底在内49页以上的印刷品,具有特定的书名和著者名,编有国际标准书号,有定价并取得版权保护的出版物称为图书。形式特征:图书的著录格式反映其形式特征。

2025-12-17 11:46:38 871

原创 VLM代码学习:Qwen3-VL模型代码执行逻辑梳理(基于Transformers库)

本文梳理了Qwen3-VL模型(基于Transformers)的代码执行流程。首先通过AutoModelForImageTextToText加载预训练模型,支持自动设备分配和精度选择;同时使用AutoProcessor初始化集成了文本分词和图像预处理的统一工具。代码展示了完整的推理流程:构建包含图像URL和文本指令的输入消息,通过processor转换为模型输入张量,执行生成推理并解码输出。

2025-12-16 19:59:14 2572

原创 计算机图形学:【Games101】学习笔记04——着色(光照与基本着色模型、着色频率、图形管线、纹理映射)

本文总结了GAMES101课程中关于计算机图形学着色技术的核心内容。第一部分介绍了Z缓冲算法解决物体遮挡问题,通过维护深度缓冲区实现高效可见性判断;第二部分详细讲解了Blinn-Phong反射模型,包括漫反射、高光反射和环境光三个分量的计算原理与实现方法。文章还探讨了着色频率对渲染效果的影响,并概述了图形渲染管线的工作流程。这些技术共同构成了现代实时图形渲染的基础框架,为真实感画面的生成提供了理论支撑和实践指导。

2025-12-14 23:24:10 1185

原创 VLM前沿报告阅读:【Qwen3-VL】Qwen3-VL Technical Report

阿里巴巴团队推出的Qwen3-VL是目前最强的视觉-语言模型系列,支持256K长文本-图像-视频交错输入,包含2B-235B多种参数规模的稠密和MoE架构。该模型通过三大创新实现突破:(1)增强的interleaved-MRoPE位置编码优化时空建模;(2)DeepStack多级视觉特征融合机制;(3)文本时间戳替换传统视频位置编码。训练采用四阶段预训练(最高256K上下文)和三阶段后训练策略,在MMMU、MathVista等基准测试中表现优异,同时保持强大的文本理解能力。

2025-12-12 11:19:51 1693

原创 Qwen3-VL-8B-Instruct模型部署和峰值显存占用实测

本文详细介绍了Qwen3-VL-8B-Instruct多模态大模型的部署方法和显存占用测试。主要内容包括:1)通过GitHub下载代码库,使用Modelscope获取模型权重;2)配置conda虚拟环境并安装必要的Python库;3)改造推理代码以测量峰值显存占用。测试结果显示,在单张图片推理任务中,模型能准确描述图像内容(如沙滩上女子与狗的温馨场景),单卡显存占用约17GB,多卡可降低单卡负载。文章提供了完整的代码示例,包括模型加载、图片处理和显存统计的实现方法,为开发者部署该模型提供了实用参考。

2025-12-11 11:14:28 1836

原创 VLM相关论文阅读:【LoRA】Low-rank Adaptation of Large Language Models

LoRA(Low-Rank Adaptation)是一种高效的大模型微调方法,通过冻结预训练模型权重并注入可训练的低秩矩阵,显著减少下游任务参数数量。实验表明,LoRA在GPT-3等模型上仅需0.01%的可训练参数,即可达到全量微调效果,且不增加推理延迟。相比适配器层和前缀微调等方法,LoRA在参数效率、计算开销和任务切换成本方面具有明显优势,特别适合大规模语言模型部署场景。

2025-12-10 11:24:36 1190

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除