- 博客(106)
- 资源 (1)
- 收藏
- 关注
原创 【Video Agent 15】(Arxiv)GCAgent: Long-Video Understanding via Schematic and Narrative Episodic Memory
本文摘要(136字): GCAgent是一种针对长视频理解的创新智能体框架,通过结合图式与叙事情节记忆解决MLLMs在长期依赖建模上的局限性。该框架包含记忆管理智能体和推理智能体:前者构建结构化全局上下文(事件抽象、因果/时间关系),后者基于记忆和检索片段进行多模态推理。实验表明,在Video-MME Long基准上,GCAgent相比基线模型最高提升23.5%准确率,7B规模下达到73.4%的SOTA性能。其核心贡献在于将认知心理学中的记忆结构引入视频理解,实现了更接近人类的长视频处理范式。
2026-06-11 22:40:58
227
原创 【Video Agent 14】(ICCV 2025)LVAgent: LVU by Multi-Round Dynamical Collaboration of MLLM Agents
本文介绍了ICCV 2025长视频理解工作LVAgent,旨在解决多模态大语言模型(MLLM)在长视频理解中的局限性。传统方法依赖单个MLLM处理长视频时存在计算冗余和部分理解的问题,而LVAgent通过多智能体动态协作实现了更全面高效的长视频分析。该框架包含四个核心步骤:智能体预选(Selection)组建最优团队,三阶段感知(Perception)检索关键片段,智能体协作行动(Action)生成答案,以及反思(Reflection)优化团队表现。
2026-06-10 23:20:57
423
原创 计算机图形学:【Games101】学习笔记08——光线追踪(辐射度量学、渲染方程与全局光照、蒙特卡洛积分与路径追踪)
本文总结了GAMES101课程中关于光线追踪的基础知识,重点介绍了辐射度量学、渲染方程与全局光照的基本原理。主要内容包括: 辐射度量学基本概念:辐射能量、辐射通量、辐射强度和立体角的定义与单位。 辐照度(Irradiance)及其特性、 辐射度(Radiance)的定义与性质、双向反射分布函数(BRDF)、反射方程与渲染方程。
2026-06-10 17:41:37
200
原创 计算机图形学:【Games101】学习笔记07——光线追踪(基本原理、加速结构)
本文介绍了光线追踪的基本原理与加速结构。首先分析了光栅化的局限性(如难以处理软阴影、间接光照等全局效果),并对比了光栅化(实时渲染)与光线追踪(离线渲染)在速度与质量上的差异。接着阐述了光线追踪的核心概念,包括光线投射(Ray Casting)和Whitted风格递归光线追踪(Recursive Ray Tracing),后者通过光线多次弹射实现镜面反射、折射等效果。文章详细讲解了光线与隐式表面、球体及三角形网格的求交方法,重点介绍了高效的Möller-Trumbore算法。最后指出朴素算法的性能瓶颈(需测
2026-06-07 16:19:30
360
原创 结合代码读3DGS论文(13)——CVPR 2026 3DGS加速&压缩新工作论文ShorterSplatting及代码解读
CVPR 2026论文ShorterSplatting提出了一种加速3D高斯溅射(3DGS)训练的新方法,通过缩短渲染像素所需的高斯列表显著提升效率。该工作引入两种关键技术:(1)尺度重置:周期性缩小高斯尺度,减少其对相邻像素的影响;(2)熵约束:锐化权重分布,使主导高斯更突出。结合渐进式分辨率调度策略,该方法在Mip-NeRF 360等基准上实现了最快的训练速度(较基线加速9倍),同时保持渲染质量。代码已开源,为实时3D重建应用提供了高效解决方案。
2026-06-03 16:22:56
356
原创 计算机图形学:【Games101】学习笔记06——几何(曲线和曲面、网格处理)、阴影图
本文为GAMES101计算机图形学课程笔记,主要涵盖几何(曲线和曲面)以及阴影图技术。在几何部分详细介绍了显式表示方法(点云、多边形网格、.obj格式),重点讲解贝塞尔曲线的定义、德卡斯特里奥算法及其代数公式推导,包括二次和三次贝塞尔曲线的应用。课程整体内容贯穿图形学核心概念,适合系统学习计算机图形学基础知识。
2026-06-03 13:10:21
468
原创 【TJU】研究生应用统计学课程笔记(11)——第五章 非参数统计(5.1 分布的卡方拟合优度检验、5.2 列联表的独立性检验)
本文介绍了非参数统计中的卡方拟合优度检验方法。主要内容包括:1)卡方检验的基本概念,用于检验样本数据与理论分布的拟合程度;2)简单假设和复合假设两种情况下的检验步骤,前者总体分布完全确定,后者需估计未知参数;3)检验统计量的构造和分布,当样本量足够大时服从卡方分布;4)实际应用中的注意事项,如样本量要求、区间划分原则等;5)通过正二十面体均匀性检验和颅骨宽度正态性检验两个案例,展示了检验的具体实施过程。该方法特别适用于检验总体分布是否为指定形式,在正态性检验等实际问题中有广泛应用。
2026-05-07 18:58:23
438
原创 【TJU】研究生应用统计学课程笔记(10)——第四章 线性模型(4.3 可化为线性回归的曲线回归、4.4 单因子方差分析)
本文介绍了线性模型中的曲线回归和单因子方差分析。在4.3节中,详细阐述了6种可化为线性回归的非线性模型(如双曲线、幂函数、指数曲线等)的变换方法,并通过鱼类生长数据和合金钢膨胀系数两个实例演示了转换过程。4.4节讲解了单因子方差分析的基本概念,包括指标、因子、水平等术语,通过水稻品种试验案例说明了如何区分系统误差和随机误差,并建立了数学模型来检验不同水平下总体均值是否相等。文章强调多项式回归能处理非线性问题但需控制次数,而方差分析则用于判断因素变化对结果的影响显著性。
2026-05-07 17:01:56
341
原创 【TJU】应用统计学——第八周作业(5.1 分布的卡方拟合优度检验、5.2 列联表的独立性检验)
本文为天津大学应用统计学第八周作业解析,主要涵盖分布的卡方拟合优度检验和列联表独立性检验。内容包含5道单选题和6道填空题,涉及检验方法选择、统计量分布特性、实际案例计算等核心知识点。 单选题部分重点解析了: 列联表检验的适用场景(如性别与满意度的关系检验) 拟合优度检验统计量服从卡方分布的特性 列联表检验的自由度计算公式((p-1)(q-1)) 独立性检验的原假设设定(变量独立) 填空题部分通过实际案例演示了: 事故频次与星期的拟合优度检验(χ²=25.49) 骰子均匀性检验(χ²=7,接受均匀假设) 均匀
2026-05-06 22:51:36
412
原创 【TJU】研究生应用统计学课程笔记&每周作业传送门(已完结)
本文整理了天津大学研究生应用统计学课程的完整学习资源,包含课程笔记和每周作业两大部分。课程笔记涵盖数理统计基本知识、参数估计、假设检验和线性模型四大章节,共9篇详细笔记。每周作业部分提供了7周的系统练习,内容与课程章节同步,包含统计分布、参数估计、假设检验和回归分析等核心知识点。所有资源均提供CSDN博客链接,适合统计学学习者系统性地掌握课程内容并进行练习巩固。
2026-05-06 15:30:36
227
原创 【TJU】研究生应用统计学课程笔记(9)——第四章 线性模型(4.2 多元线性回归分析)
本文介绍了多元线性回归分析的核心内容。首先建立了多元线性回归模型,描述了随机变量Y与k个自变量X的线性关系,并给出矩阵表示形式。其次详细阐述了参数β的最小二乘估计方法,通过求解正规方程组获得估计值,并讨论了参数估计的统计性质。然后介绍了残差向量构造方差σ²估计的方法,证明了其无偏性。最后说明了线性回归模型的中心化处理过程,将观测值转换为离差形式进行建模。全文系统性地讲解了多元线性回归从模型构建到参数估计的完整理论框架,包括矩阵表示、参数估计方法及统计性质等核心内容。
2026-05-05 21:27:11
417
原创 【TJU】研究生应用统计学课程笔记(8)——第四章 线性模型(4.1 一元线性回归分析)
本文主要介绍了一元线性回归分析的基本原理与应用。首先阐述了变量间确定性与非确定性关系的区别,指出回归分析的核心目标是建立经验回归方程、检验合理性、进行预测和控制以及因素分析。通过商品价格与销售额的实例展示了回归分析的实际应用场景。 重点讨论了一元线性回归模型的定义及其正态分布假设,详细推导了最小二乘估计方法求解回归系数β₀和β₁的过程,包括正规方程组的建立和解法。给出了回归系数的最小二乘估计公式,并证明了这些估计量的无偏性和最小方差性等优良性质。 最后介绍了残差平方和的概念。
2026-05-05 21:08:19
458
原创 【TJU】应用统计学——第一周作业(1.1 数理统计的基本内容、1.2 数理统计的基本概念)
本文档为天津大学应用统计学课程的作业解析,主要涵盖数理统计的基本概念和计算方法。内容包括: 单选题部分详细解答了样本容量、均值、方差的计算(如观测值序列(2,3,4,1,3,2,3,2)的统计量求解),以及泊松分布和二项分布中统计量期望值的推导。 多选题部分分析了数据线性变换下样本均值与方差的变化规律,证明了y=(x-a)/b变换后,样本均值关系为ȳ=(x̄-a)/b,样本方差关系为S_y²=S_x²/b²。 所有题目均给出完整的计算过程和理论依据,涉及统计学核心概念如无偏估计、贝塞尔修正、分布性质等,并最
2026-04-28 20:26:37
368
原创 【TJU】研究生应用统计学课程笔记(7)——第三章 假设检验(3.1 基本概念 3.2 参数假设检验)
本文摘要介绍了研究生应用统计学课程中关于假设检验的基本概念与方法。主要内容包括: 假设检验的基本概念:区分参数假设检验与非参数假设检验,定义原假设(H₀)和备择假设(H₁)。 假设检验的核心思想:通过构造统计量建立判断规则,利用显著性水平α控制决策风险,重点说明了拒绝域与接受域的确定方法。 两类错误分析:详细解释了第一类错误(拒真)和第二类错误(纳伪)的概率特性及其相互关系。 显著性检验步骤:系统阐述了从提出假设到作出推断的五步检验流程,强调统计量的选择和临界值的确定。
2026-04-28 15:27:25
394
原创 【TJU】研究生应用统计学课程笔记(6)——第二章 参数估计(2.4 区间估计)
本文介绍了参数估计中的区间估计方法,重点阐述了置信区间的定义、特性及构建步骤。置信区间通过样本数据确定一个包含未知参数θ的随机范围,其可信度由置信水平1-α衡量。核心在于平衡置信度与区间精度:提高置信度会扩大区间范围,而缩小区间会降低置信度。文章以均匀分布和正态分布为例,演示了置信区间的具体构建过程,包括构造统计量、确定分布及区间变换等关键步骤。对于正态总体,当方差已知时,利用标准正态分布可求得均值的对称置信区间。区间估计通过概率化方法为参数提供范围评估,是统计推断的重要工具。
2026-04-27 16:23:28
567
原创 【TJU】研究生应用统计学课程笔记(5)——第二章 参数估计(2.3 C-R不等式)
本文介绍了C-R不等式(Rao-Cramer不等式)在参数估计中的应用。首先定义了Rao-Cramer正则分布族的五个条件,并通过Poisson分布和正态分布的例子验证其满足这些条件。然后给出了Rao-Cramer不等式的主要结论:对于Rao-Cramer正则分布族,任何无偏估计量的方差存在一个下界(C-R下界)。文章还讨论了该不等式的适用条件和特殊情况,指出均匀分布族不属于正则分布族,因此不等式不适用。
2026-04-27 16:22:17
424
原创 【TJU】应用统计学——第七周作业(4.2 多元线性回归分析、4.3 可化为线性回归的曲线回归、4.4 单因子方差分析)
本文主要解答了应用统计学中关于多元线性回归分析、曲线回归和单因子方差分析的相关习题。内容包括单选题和多选题,涉及方差分析的F检验统计量计算、基本假设条件、研究目的以及回归模型的可线性化判断等核心概念。重点解析了方差分析中组间均方与组内均方的比值作为检验统计量的原理,以及回归分析中决定系数R²与残差平方和的关系。同时通过具体例题,阐述了如何判断非线性回归模型是否可以通过变量替换转化为线性模型。这些内容为理解和应用统计分析方法提供了理论基础。
2026-04-26 19:48:21
549
原创 【TJU】研究生应用统计学课程笔记(4)——第二章 参数估计(2.1 矩估计和极大似然估计、2.2估计量的优良性原则)
摘要:本文介绍了参数估计的两种主要方法——矩估计和极大似然估计。矩估计通过样本矩替代总体矩来估计未知参数,适用于总体矩存在的情况;极大似然估计则基于概率最大化原理,通过最大化似然函数求解参数估计值。文中通过具体例子(如正态分布均值方差估计、指数分布参数估计)展示了两种方法的计算过程,并指出矩估计直观简便但需总体矩存在,而极大似然估计能充分利用分布信息但计算可能更复杂。此外,还简要提及参数估计分为点估计和区间估计两类。
2026-04-23 11:00:13
472
原创 【TJU】研究生应用统计学课程笔记(3)——第一章 数理统计的基本知识(1.4 正态总体的样本均值和样本方差的分布、1.5 充分统计量和完备统计量)
设 (X1,…,Xn)(X_1, \dots, X_n)(X1,…,Xn) 是取自正态总体 N(μ,σ2)N(\mu, \sigma^2)N(μ,σ2) 的一个样本,Xˉ=1n∑i=1nXi\bar{X} = \frac{1}{n} \sum_{i=1}^n X_iXˉ=n1∑i=1nXi,S2=1n−1∑i=1n(Xi−Xˉ)2S^2 = \frac{1}{n-1} \sum_{i=1}^n (X_i - \bar{X})^2S2=n−11∑i=1n(Xi−Xˉ)2 分别为样本均值和样
2026-04-21 23:05:39
426
原创 【TJU】研究生应用统计学课程笔记(2)——第一章 数理统计的基本知识(1.3 统计中常用的分布族)
本文摘要介绍了统计中常用的分布族,包括正态、二项、泊松、均匀和指数分布族。重点讨论了Gamma分布族的定义、性质及与卡方分布的关系。Gamma分布具有可加性和尺度变换性质,当形状参数为1时退化为指数分布。卡方分布是Gamma分布的特例,具有自由度和可加性特点。通过实例展示了分布间的转换关系,如正态变量的平方服从卡方分布。这些分布在统计推断中具有重要作用,为后续统计方法的学习奠定基础。
2026-04-21 22:16:20
469
原创 【TJU】应用统计学——第六周作业(3.3 两个正态总体参数的假设检验、3.4 非正态总体参数的假设检验、4.1 一元线性回归分析)
1️⃣ 考虑线性回归模型:Y1=θ1+ε1Y2=2θ1−θ2+ε2Y3=θ1+2θ2+ε3Y_1=\theta_1+\varepsilon_1 \\Y_2=2\theta_1-\theta_2+\varepsilon_2 \\Y_3=\theta_1+2\theta_2+\varepsilon_3Y1=θ1+ε1Y2=2θ1−θ2+ε2Y3=θ1+2θ2+ε3其中 E(εi)=0, E(εiεj)=0(i≠j)E(\varepsilon_i)=0,\ E(\varepsilon
2026-04-20 12:13:21
407
原创 【TJU】研究生应用统计学课程笔记(1)——第一章 数理统计的基本知识(1.1 数理统计的基本内容、1.2 数理统计的基本概念)
本文总结了【TJU】研究生应用统计学课程中概率论与数理统计的基本概念,重点介绍了随机变量及其分布、数字特征和极限定理。主要内容包括:1)随机变量的定义与分类(离散型与连续型),常见分布(二项分布、泊松分布、正态分布等)及其性质;2)期望、方差、协方差和相关系数等数字特征的计算与性质;3)切比雪夫不等式和依概率收敛等极限定理。这些内容是后续统计学学习的重要基础,涵盖了概率论的核心概念和常用工具。
2026-04-13 19:57:28
548
原创 【Video Agent 13】(Arxiv2604, Meta)Tempo: Small Vision-Language Models are Smart Compressors for LVU
Meta研究团队提出Tempo框架,通过小型视觉语言模型实现长视频的高效压缩和理解。该框架采用查询感知的自适应token分配策略(ATA),动态为关键片段分配密集带宽(每帧16 token),同时将冗余内容压缩为最小时间锚点(每帧0.5 token)。实验显示,6B参数的Tempo在LVBench基准(4101秒视频)上以8K token预算取得52.3分,超越GPT-4o等专有模型。该方法证明意图驱动的压缩比单纯增加上下文窗口更有效,为长视频理解提供了新思路。
2026-04-13 09:21:05
647
原创 【TJU】应用统计学——第五周作业(3.1 假设检验的基本思想、3.2 单个正态总体参数的假设检验)
本文是天津大学应用统计学课程第五周作业解析,主要涉及假设检验的基本概念和正态总体参数检验方法。通过12道单选题,系统梳理了假设检验的核心知识点: 正态总体均值检验时,方差已知用Z检验(标准正态分布),方差未知用t检验(自由度为n-1) 假设检验的两类错误:第一类错误(原假设为真时拒绝)对应显著性水平α,第二类错误(原假设为假时接受) 方差检验使用卡方统计量(自由度为n-1) 单侧检验的假设设置(如验证"更高"用右尾检验) 检验统计量的构造方法(如t统计量与样本标准差的关系) 。
2026-04-12 21:06:57
395
原创 结合代码读3DGS论文(12)——NeurIPS 2024 Spotlight 3DGS经典Backbone工作3DGS-MCMC论文及代码解读
本文介绍了NeurIPS 2024 Spotlight论文3DGS-MCMC。传统3DGS依赖启发式的克隆、分裂和剪枝策略来放置高斯体,导致渲染质量受限且对初始化敏感。本研究将3D高斯体视为从场景潜在概率分布中抽取的MCMC样本,通过随机梯度朗之万动力学(SGLD)进行优化,实现了更自然的高斯体探索。该方法用原则性的重定位策略替代了启发式方法,并引入L1正则化促进高斯体的高效使用。实验表明,该方法提升了渲染质量、简化了高斯体数量控制,并增强了对初始化的鲁棒性。
2026-04-07 15:11:40
510
原创 【conda】打包已有conda环境并在其他服务器上搭建
本文介绍了两种打包conda环境并在其他服务器上重建的方法。方法1推荐使用env.yml导出环境配置,通过conda env export生成环境文件,在新机器上用conda env create重建,并用pip freeze补充pip安装的包。方法2使用conda-pack直接打包整个环境,适合Linux服务器间迁移,通过conda-pack生成压缩包,解压后运行conda-unpack修复路径。两种方法都能有效实现conda环境的迁移复制,方法1更适合跨平台,方法2更适合同类系统的完整复制。
2026-04-05 22:08:55
371
原创 结合代码读3DGS论文(11)——CVPR 2024 Student Best Paper 3DGS经典Backbone工作Mip-Splatting论文及代码解读
本文介绍了CVPR 2024最佳学生论文《Mip-Splatting: Alias-free 3D Gaussian Splatting》,该工作针对3D高斯渲染(3DGS)在不同采样率下出现伪影的问题提出了创新解决方案。论文发现3DGS的伪影源于缺乏3D频率约束和使用二维膨胀滤波器,为此提出了两项改进:1)引入3D平滑滤波器,根据训练视图采样率约束3D高斯基元的最大频率;2)将二维膨胀操作替换为模拟物理成像过程的二维Mip滤波器。
2026-04-04 22:54:43
591
原创 【TJU】应用统计学——第三周作业(1.5 充分统计量和完备统计量、2.1 矩估计和极大似然估计、2.2 估计量的优良性准则)
矩估计法(Method of Moments)的核心思想是用样本矩估计总体矩。 1. 基本原理:根据大数定律,当样本量 nnn 足够大时,样本矩以概率收敛于相应的总体矩。 2. 求解期望:总体的期望 E(X)E(X)E(X) 即为总体的一阶原点矩 μ1\mu_1μ1。按照矩估计法,直接令总体矩等于样本矩:E(X)^=Xˉ=1n∑i=1nXi\hat{E(X)} = \bar{X} = \frac{1}{n} \sum_{i=1}^{n} X_iE(X)^=Xˉ=n1i=1∑nXi
2026-03-28 17:35:07
437
原创 【Video Agent 12】(CVPR 2026,代码解读已更新)VideoITG:MVU with Instructed Temporal Grounding
本文介绍CVPR 2026工作VideoITG,通过指令驱动的时间定位优化视频理解任务中的关键帧选择。针对现有方法在复杂指令跟随和时间建模上的不足,作者设计了VidThinker自动标注流程,构建包含4万视频和50万标注的VideoITG-40K数据集。实验表明,该框架能以更少帧数达到或超越现有最优方法的性能,在VideoMME等基准上展现出显著优势。核心创新在于将用户指令直接整合到帧选择过程,实现任务自适应的多模态视频理解。
2026-03-26 09:59:00
526
原创 结合代码读3DGS论文(10)——ICLR 2025 3DGS加速&压缩新工作Sort-Free 3DGS论文及代码解读
本文介绍了发表在ICLR 2025的无需排序3D高斯泼溅(Sort-Free 3DGS)论文,通过加权求和渲染替代传统的alpha混合操作,显著提升了渲染效率。该方法消除了排序需求,简化了实现流程,在移动设备GPU上实现了1.23倍的加速,同时避免了去除排序可能导致的跳变伪影。论文创新性地结合了顺序无关透明性(OIT)思想,引入可学习的视角相关不透明度参数,在保持图像质量的前提下优化了渲染管线。
2026-03-23 23:47:26
691
1
原创 【TJU】应用统计学——第二周作业(1.3 统计中常用的分布族、1.4 正态总体的样本均值和样本方差的分布)
该文档为应用统计学课程的第二周作业,包含题目及详细解答。题目涉及概率分布转换(如均匀分布转换为指数分布)、统计量分布推导(如卡方分布、t分布、F分布)以及指数型分布族的判别。通过概率论与数理统计知识,详细论证了各统计量的分布特性,并给出正确答案。典型问题包括:由均匀分布X推导Y=-lnX的分布(结果为Exp(1))、样本组合统计量服从t分布的条件判断,以及判断均匀分布不属于指数型分布族等。解答过程严谨,运用了分布函数、独立性和统计量构造等核心统计方法。
2026-03-23 16:41:57
382
原创 【Video Agent 11】(Arxiv2504)VideoExpert: Augmented LLM for Temporal-Sensitive Video Understanding
本文介绍VideoExpert,一种增强型多模态大语言模型(MLLM),用于时间敏感的视频理解任务。现有MLLM在时序定位等任务上表现不佳,主要依赖语言模式而非视觉线索生成时间戳。VideoExpert创新性地集成两个并行专家模块:Temporal Expert处理高帧率压缩特征以捕捉动态变化并实现精确事件定位;Spatial Expert专注于内容细节分析和指令跟随。通过特殊token <LOC>实现协作,参数解耦设计避免相互干扰。此外,引入Spatial Compress模块筛选压缩patc
2026-03-18 16:12:00
437
原创 【Video Agent 10】(Arxiv2508)Video-EM: Event-Centric Episodic Memory for Long-Form Video Understanding
Video-EM提出了一种基于事件的情景记忆框架,用于解决长视频理解中的关键帧冗余和叙事碎片化问题。该方法通过多粒度语义匹配定位相关时刻,将其组织为时间连贯的事件,并编码为具身情景记忆(包含时空线索和实体信息)。通过推理驱动的自反思循环,系统迭代优化事件粒度,去除冗余,最终生成紧凑可靠的事件时间线。实验表明,Video-EM在使用更少帧数的情况下,显著提升了长视频问答性能,且兼容现有视频大语言模型,无需额外训练。该工作为长视频理解提供了新范式,超越了传统帧级检索方法。
2026-03-17 08:56:35
559
原创 大语言模型系统:【CMU 11-868】课程学习笔记06——Transformer学习(Transformer)
本文总结了CMU 11-868课程中Transformer架构的核心内容。Transformer采用编码器-解码器结构,通过自注意力机制实现并行计算和全上下文捕捉。关键组件包括词嵌入、位置编码、多头注意力(通过缩放点积计算并分割多个头)、前馈网络(含ReLU激活)以及残差连接与层归一化。解码器使用掩码注意力防止信息泄露。训练采用交叉熵损失函数,原始模型配置为6层编码/解码器,512/1024维嵌入。相比传统RNN,Transformer具有更好的并行性和长程依赖建模能力,是大语言模型的基础架构。
2026-03-16 23:16:54
389
原创 结合代码读3DGS论文(9)——ICLR 2026 3DGS加速&压缩新工作 Mobile-GS论文及代码解读
Mobile-GS提出了一种面向移动设备的实时3D高斯泼溅(3DGS)方法,通过深度感知的无序渲染、球谐蒸馏、神经向量量化和贡献剪枝等创新技术,在移动设备上实现了116FPS的实时渲染。该方法消除了传统3DGS中耗时的深度排序过程,显著降低了计算开销和存储需求(压缩至4.8MB),同时保持了与原始方法相当的视觉质量。实验证明Mobile-GS在移动端具有高效部署的可行性,为AR/VR等应用提供了新的解决方案。
2026-03-16 17:11:15
1017
2
原创 【Video Agent 09】(Arxiv2601,Meta)Agentic Very Long Video Understanding
本文介绍Meta新作EGAgent。EGAgent是一种基于实体场景图的智能体框架,用于解决超长视频理解任务。该方法通过构建人物、物体和地点之间的时空关系图,结合视觉和音频搜索工具,实现对连续数天视频的多模态推理。实验表明,EGAgent在EgoLifeQA和Video-MME(Long)数据集上分别达到57.5%和74.1%的准确率,显著优于现有方法。该研究为可穿戴设备AI助手的长时记忆和推理能力提供了有效解决方案。
2026-03-15 21:19:46
568
原创 【Video Agent 08】(Arxiv2601)VideoThinker: Building Agentic VideoLLMs with LLM-Guided Tool Reasoning
VideoThinker提出了一种基于合成工具交互轨迹训练的智能体式视频大语言模型(VideoLLM),旨在解决长视频理解中的信息丢失和时间定位问题。该方法通过将视频转换为文本描述,利用大语言模型生成多步工具使用序列,再映射回真实视频帧,构建交错式视频推理数据集。设计了时间检索和时间缩放两类工具,支持动态推理和自适应时间探索。实验表明,VideoThinker在长视频基准上显著优于现有方法,验证了工具增强合成数据和自适应推理的有效性。
2026-03-15 13:41:48
697
原创 大语言模型系统:【CMU 11-868】课程学习笔记05——深度学习框架设计(Deep Learning Framework Design)
CMU 11-868课程笔记05探讨了深度学习框架设计的关键要素。以TensorFlow为例,分析了其核心设计理念:通过数据流图表达机器学习计算,支持张量运算、自动微分和分布式训练。课程对比了主流框架(PyTorch、TensorFlow、JAX)在编程范式、硬件支持等方面的差异,并详细讲解了计算图中的变量节点、占位符和运算节点的实现机制。笔记还阐述了深度学习框架的设计原则,包括两阶段执行(定义程序+优化执行)和动态流控制支持。这些内容为构建高效的大语言模型系统提供了理论基础和实践指导。
2026-03-11 22:40:27
386
原创 【Video Agent 07】(CVPR 2026)LongVT: Incentivizing “Thinking with Long Videos” via Native Tool Calling
本文介绍CVPR 2026提出的LongVT框架,通过交错式多模态工具思维链(iMCoTT)实现长视频理解。受人类全局浏览-局部验证策略启发,LongVT利用大模型原生时间定位能力作为视频裁剪工具,通过循环推理聚焦关键片段并减少幻觉。针对长视频推理中细粒度数据稀缺问题,作者构建了VideoSIAH数据集(包含26.5万样本)和评测基准,采用冷启动SFT+智能体RL+强化微调三阶段训练策略,在联合答案-时间定位奖励下优化模型。
2026-03-11 20:07:40
833
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅