MarvinP-CSDN博客

原创《Multi-Scale Contrastive Learning for Video Temporal Grounding》

视频时间定位（Temporal Grounding）：给定未剪辑视频和自然语言查询，定位视频中与查询语义匹配的片段（如 “找到我放扳手的片段”），是跨模态（视觉 - 语言）视频理解的核心任务，可应用于监控、机器人、自动驾驶等场景。

2025-10-14 15:53:47 775

原创《VTG-LLM: Integrating Timestamp Knowledge into Video LLMs for Enhanced Video Temporal Grounding》

训练槽位分配器，将多令牌按相似度混合成 256 个槽位，替代原令牌输入 LLM。加序列嵌入（顺序权重）+ 绝对时间嵌入（秒数权重），零初始化 + 测试时插值。新增 11 个时间专属令牌，6 个令牌统一格式，迁移普通数字令牌权重。发表：AAAI2025 单位：香港中文大学+腾讯平台与内容事业部。给时间数字开 “专属办公室”，偷师普通数字经验。把杂乱文件整理进 256 个 “主题抽屉”给旅行照片贴 “顺序贴 + 秒数贴”时间数字和普通数字语义混淆。装不下多帧的大量视觉令牌。不知帧对应视频具体秒数。

2025-10-13 23:12:47 216

原创《VTG-LLM: Integrating Timestamp Knowledge into Video LLMs for EnhancedVideo Temporal Grounding》

序列 - 时间嵌入帮它给每帧 “标上具体秒数”，知道 “什么时候发生了什么”；绝对时间令牌帮它 “分清时间和普通数字”，不会理解错查询里的时间语义；槽位压缩帮它 “整理多帧信息”，不会因为信息太多记不住。三者结合，就能让模型精准定位 “查询对应的视频时间片段”，解决 VTG 任务的核心痛点。

2025-10-09 23:33:24 873

原创《ChatVTG: Video Temporal Grounding via Chat withVideo Dialogue Large Language Models》

ChatVTG：零样本视频时间定位新方法本文提出ChatVTG，一种无需标注数据的视频时间定位方法。该方法通过视频对话大语言模型生成多维度字幕，再结合文本语义匹配实现精准定位。核心创新在于：（1）设计五类指令引导模型生成覆盖动作、场景等多维度的字幕；（2）采用"列最大归一化"策略筛选最优匹配片段，避免冗余信息干扰；（3）完全零样本设置，无需任何训练数据或微调。实验表明，该方法在多个基准数据集上达到或超越监督方法的性能，为视频理解领域提供了高效、可扩展的新思路。

2025-10-09 11:35:08 822

原创《Seq2Time: Sequential Knowledge Transfer for Video LLMTemporal Grounding》

从 “数据利用” 上：将静态图像（370 万张）和短片段（Kinetics-700）转化为 “模拟长视频数据”，数据规模提升 2 个数量级；从 “监督信号” 上：无需人工标注时间戳，通过 “索引 - 字幕”“位置 - 事件” 自动生成监督信号，成本降低 99%；从 “能力迁移” 上：实现 “静态序列位置→动态视频时间” 的知识迁移，最终在 YouCook2（F1+27.6%）、Charades-STA（R@1+17.1%）上实现显著性能提升。

2025-10-09 09:59:42 964

原创《Span-based Localizing Network for Natural Language Video Localization》

QGH 是本文为解决 “传统跨度 QA 与 NLVL 的模态差异” 而提出的关键策略，核心思路是：基于文本查询的语义，在视频特征序列中 “高亮” 出可能包含目标时刻的区域（前景），引导模型仅在该区域内搜索目标时刻，从而适配视频与文本的本质差异。前景：与文本查询语义对齐的 “目标时刻” 及其相邻上下文（图 3 所示）。其中，目标时刻的真实起止边界为\(a^s\)（始）和\(a^e\)（端），长度为\(L = a^e - a^s\)；背景：视频中除前景外的其余区域（与查询语义无关的部分）。

2025-10-01 23:55:48 1002

原创 UniVTG: Towards Unified Video-Language Temporal Grounding

拆视频：把任意长度的视频 V，按固定时长（论文未指定具体时长，仅称 “fixed-length”）拆成一系列片段v1,v2,...,vLv（Lv是片段总数），每个片段记一个中心时间戳ti（比如第 1 个片段中心在 1.5 秒，第 2 个在 4.5 秒）。定查询：把用户的语言需求（比如 “孩子跳舞”“生日视频高光”“食物相关片段”）统一称为 “查询 Q”，并把 Q 拆成文字 token（比如 “孩子”“跳舞”）。

2025-10-01 17:48:17 811

原创《DecAlign: Hierarchical Cross-Modal Alignment for Decoupled Multimodal Representation Learning》

摘要：本文提出DecAlign框架，针对多模态表示学习中的异质性问题，创新性地将多模态特征解耦为模态异质（独特）和同质（共享）特征，并设计分层对齐策略。异质特征通过原型引导的最优传输与跨模态Transformer对齐，同质特征采用潜在空间统计匹配实现语义一致。在四个基准数据集上的实验表明，DecAlign在多个指标上超越现有最优方法，验证了其有效性。该框架通过"解耦-对齐-融合"的三步策略，有效解决了多模态学习中的语义干扰问题，为跨模态语义整合提供了新思路。

2025-09-25 23:19:49 800

原创论文《Mixup-Augmented Temporally Debiased Video Grounding with Content-Location Disentanglement》

给定自然语言查询语句，从未裁剪视频中检索出语义匹配的连续视频片段（时刻），例如根据查询 “A woman pours water into a cup, takes a sip and opens the window.” 定位视频中 3.2s-16.7s 的片段。“正样本时刻级样本” 指视频中与查询语句语义完全匹配的真实片段（如查询 “A woman pours water into a cup...” 对应的 3.2s-16.7s 片段）；

2025-09-25 17:55:34 674

原创 python基础：位置互换

从索引 0 开始，每次步进 2 遍历，利用 Python 的多重赋值语法交换相邻字符，最后用。从索引 1 开始，每次步进 2，即遍历所有奇数索引位置，然后交换相邻的奇偶位置元素。可以通过判断数值的奇偶性，然后进行相应运算实现。若字符串长度为偶数，可通过遍历字符串，两两交换相邻字符实现。），如果是则加 1；如果是奇数则减 1 ，从而实现奇偶性互换。这里先将字符串转为列表方便操作，这里先判断数字是否为偶数（方法将列表转回字符串。

2025-04-10 23:30:45 494 1

原创 python 基础：句子缩写

可以逐个转换字符串中的字符，然后拼接成新字符串。对于一些语言有特殊大小写转换规则的情况，可使用。借助正则表达式匹配字符并转换。

2025-04-10 22:33:45 426

原创 python 基础：奇怪的信

没什么难的看看奇数偶数怎么求的。

2025-04-09 23:58:46 210

原创 python 基础：个人自用输入输出

自用资源。

2025-04-09 23:54:38 140

原创 python基础：平均绩点

如果想要按照自己设定的规则进行字符到数字的映射，可以创建字典来实现。'A': 1,'B': 2,'C': 3char = 'B'print(num) # 输出2在 Python 里，break语句只能跳出当前所在的那一层循环。break是彻底终止循环，不再进行后续的迭代；而continue只是跳过当前这一次迭代，循环会继续执行后续的迭代。选择使用break还是continue取决于具体的需求，若要提前结束整个循环，就用break；若只是想跳过当前迭代的部分操作，就用continue。

2025-04-05 22:09:01 369

原创 python基础：摆平积木

【代码】python基础：摆平积木。

2025-04-05 03:07:15 129

原创 python基础：数组的倒序与隔位输出

我的代码：比较丑陋print()print()\nendend=' 'print()

2025-04-03 22:29:43 1513

原创 python基础A+B 6

以下是在编写代码过程中出现的错误合集以及对应的知识点：

2025-04-03 17:40:57 295

原创 pyhton基础：A+B 5

分割成一个列表此时，for循环是在遍历这个列表，而不是按行读取输入内容。2 4['2', '4']for'2''4'Ctrl + Dline'2 4\n'a = 2b = 4line'11 19\n'2 4['2', '4']line'2'readline()readline()\n2 4\nreadline()'2 4\n'strip()按指定分隔符（默认是空格）将字符串分割成列表['2', '4']map()map()map()int()['2', '4']24list()[2, 4]ab。

2025-04-03 17:27:20 1560

原创 python基础：A+B问题4

【代码】python基础：A+B问题4。

2025-04-02 23:27:20 125

原创 python基础：A+B问题III

需要注意的点为什么不能用 line.readline().strip().split(' ')是文件对象所具备的方法，字符串并没有这个方法。异常，因为你尝试在字符串上调用一个不存在的方法。

2025-04-02 21:55:34 167

原创 Python基础：A+BII

sys.stdin在读取数据时会按照输入流的顺序依次进行，每次读取后文件指针会向后移动，后续的读取操作会从当前位置继续，不会重新回到输入的开头。这种机制使得sys.stdin适合处理连续的输入数据，特别是在需要逐行处理大量数据的场景中非常有用。

2025-03-31 15:26:51 421

原创 Python 基础 A+B问题I

sys.stdin输入读取sys.stdin用于读取标准输入，适合处理多行输入。通过可以逐行读取输入内容，直到输入结束（如文件末尾或用户终止输入）。方法用于去除字符串首尾的空白字符（如换行符\n、空格），确保输入内容处理的准确性。方法按空格分割字符串，返回字符串列表。例如'3 4'分割后得到['3', '4']。map()函数将可迭代对象（如列表）中的元素转换为整数。例如会生成整数3和4，配合解包赋值给a, b。循环与逐行处理通过循环逐行处理输入，确保每对a, b。

2025-03-31 10:44:45 869

原创论文笔记《Next-ViT: Next Generation Vision Transformer for Efficient Deployment inRealistic Industrial 》

在这些工作中，我们提出了在现实工业场景中有效部署的下一代愿景变压器，即next - vit，它从延迟/精度权衡的角度主导了CNNs和vit。主要就是介绍了CNN在视觉领域还是占据主导，但是相比较于Transformer在大数据集的精度上还是有所欠缺，不过Transformer在实际应用中相较于CNN速度太慢，主要原因是：MHSA多头自注意力的计算复杂度太高，和LN和GELU的低效，而且Transformer的模型设计也很复杂，导致频繁的访问内存和复制。可能这就是它高效的由来，再加上BN。...

2022-09-04 09:14:01 417 1

原创第十七课模块 module和包

第十七课模块 module和包模块是一个包含有一系列变量，函数，类等组成的程序组模块是一个文件，模块文件问通常已.py结尾分类： 1.内置模块（BIT） 2.安装的标准库模块 3.第三方模块，需要自己安装 4.用户自己编写的模块模块的导入import 语句语法 import 模块名1 [as 模块新名1]，模块名2[as 模块新名2]，...eg： import math import sys，os作用： ...

2020-06-23 17:48:15 279

原创第十六课类和对象

第十六课类和对象一.对象：就是把数据与功能整合在一起，即一个盛放数据与功能的容器类：即类别种类，是面向对象分析和设计的基石，对象是类的实例，可以把同一类对象相同的数据与功能存放到类里，而无需每个对象都重复存一份，每个对象里只需存自己独有的数据即可，极大地节省了空间。在程序中，必须要事先定义类，然后再调用类产生对象（调用类拿到的返回值就是对象）类的定义： class Turle(): //定义一个类，首字母要大写，定义一个函数首字母小写eg：class Perso...

2020-06-23 17:47:41 245

原创第十五课 else语句和with语句

第十五课 else语句和with语句else配合if 和whilewith语句可以帮助关闭文件而不用再fclose（）

2020-06-23 17:47:00 191

原创第十四课异常处理

第十四课异常处理一.AssertionError 断言语句（assert）失败AttributeError 尝试访问未知的对象属性EOFError 用户输入文件末尾标志EOF（Ctrl+d）FloatingPointError 浮点计算错误GeneratorExit generator.close() 方法被调用的时候ImportError 导入模块失败的时候IndexE...

2020-06-23 17:46:28 184

原创第十三课模块

第十三课模块在Python中，一个py文件就是一个模块，文件名为xxx.py模块名则是xxx,导入模块可以引用模块中已经写好的功能。1.import语句#文件名：foo.pyx=1def get(): print(x)def change(): global x x=0要想在另外一个py文件中引用foo.py中的功能，需要使用import foo，首次导入模块会做三件事：执行源文件代码产生一个新的名称空间用于存放源文件执行过程中产生的名字在当前执...

2020-06-23 17:45:32 502

原创第十二课文件

第十二课文件1.文件的打开模式'r'以只读方式打开文件（默认）'w'以写入的方式打开文件，会覆盖已存在的文件'x'如果文件已经存在，使用此模式打开将引发异常'a'以写入模式打开，如果文件存在，则在末尾追加写入'b'以二进制模式打开文件't'以文本模式打开（默认）'+'可读写模式（可添加到其他模式中使用）'U'通用换行符支持2.文件对象方法f.close()关闭文件f.read([size=-1])从文件读取size个字符，当未给定size或给定负值的时候，

2020-06-19 23:56:13 189

原创第十一课字典

第十一课字典一. 创建字典创建一个空字典：a = {}创建一个字典：a = {'name':'吴晋丞','age':'18','gender':('男','女')} a = dict(x=1,y=2,z=3) #{'x': 1, 'y': 2, 'z': 3}// x,y,z 是key ： 123是value#应用场景：应用于k-v存储需求字典一般是用大括号fromkeys创建字典d.fromkeys(s,value)>>>dist...

2020-06-19 15:52:08 345

原创第十课函数

第十课函数一.定义函数def 函数名(参数1,参数2,...): """文档描述""" 函数体 return 值def: 定义函数的关键字；函数名：函数名指向函数内存地址，是对函数体代码的引用。函数的命名应该反映出函数的功能；括号：括号内定义参数，参数是可有可无的，且无需指定参数的类型；冒号：括号后要加冒号，然后在下一行开始缩进编写函数体的代码；"""文档描述""": 描述函数功能，参数介绍等信息的文档，非必要，但是建议加上，从而增强函数的可读性；函数体：由...

2020-06-17 14:02:05 176

原创第九课序列

第九课序列一些BIF一 . max() // 在列表中找到最大的一个元素 min() //在列表中找到最小的一个元素 notes：保证列表中的元素类型是一样的二.zip() //把两个列表合起来>>>a =[1,2,3,4,5,6,7,8,9]>>>b =[4,5,6,7,8]>>>zip(a,b)>>>返回一个对象>>>list(zip(a,b))>>...

2020-06-16 15:13:14 2295

原创第八课元组

第七课元组一.元组和列表的区别：元组内的元素一经创建就不可修改创建元组大部分用小括号： tuple1 = (1,2,3,4,5,6,7,8)note: 元组中只包含一个元素时，需要在元素后面添加逗号来消除歧义不加逗号，就是int类型 tup1 = (50,)二. 访问元组: tuple1[1] 2eg：tup1 = ('physics', 'chemistry', 1997, 2000)tup2 = ...

2020-06-15 16:39:04 244

原创第七课列表

第六课列表一.列表可以包括：整数，浮点数，字符串，对象创建列表：member =['sd','saddsa']像列表中添加元素：法一：memeber.append(' ') // 只能添加一个元素自动添加到最后法二：member.extand([' ',' ']) //能添加2个以上的元素自动添加到最后法三：member.insert(1,' ') //放在第...

2020-06-15 16:17:31 198

原创第五，六课

第五课一.>>>10 / 8>>>1.25>>>10 / 8>>>1>>>10.0 // 8.0>>>1.0在python里除法 / 会计算到精确值而除法 // 是float类型的除法只会计算到最小整数二.优先级问题先乘除后加减，先算括号里的例：-3 **2=-93**-2=1/9逻辑运算操作符优先级： not>an...

2020-06-15 10:29:34 185

原创论文思路

论文的写作方法大概题目可简单可完整作者通讯摘要模型每个子模型在总模型中的作用介绍数据集实验结果证明了模型相比较出来的优点关键字子模型关键技术模型领域第一章引言背景的重要性意义介绍模型基本原理其他学者改进的形式算法的能力模型改进发展的趋势和过程 SVR（回归）转折到自己的模型原始模型的问题（参数不够精确）需要...

2020-06-13 16:46:33 289

原创学习笔记三，四两课

第三课一.python的条件分支1. if条件：条件为真执行操作 else：条件为真执行操作2. while循环 while条件：条件为真执行在while循环中想执行几次代码例：import randomsecret = random.randint(0, 10)print('----------------GAME----------')count = 0tag =Truewhile tag:...

2020-06-01 16:11:23 246

原创 pyhon学习笔记

第一课缩进是python的灵魂，一定要注意同层次的缩进在条件(else，if)后面加冒号会自动分层。if 1<=temp<=100: print('yes')else: print("no")BIF== built-in function （内置函数){input（）//直接输入print（）//直接输出print('hello ',temp,'!',sep="")在里面加sep就可选择输出元素之间的间隔符（默认是空格）int（） //整型变量...

2020-05-31 17:15:27 224

原创第三周第一课

WHAT 算法是对特定问题求解步骤的一种描述，他是指令的有限序列。算法包括5个特性：（1）有穷性；（2）确定性；（3）可行性；（4）有输入；（5）有输出；算法侧重于解决问题的方法描述即要做什么。WHY 算法包括（1）算法设计的目标；（2）算法描述；（1）算法设计目标包括： 1.正确性

2017-09-23 12:15:15 399

原创第二周第一课绪论

what 数据结构，是描述客观事物的数和字符的集合。数据结构包括（1）数据的逻辑结构（2）数据的存储结构。数据结构是一门讨论“描述现实世界实体的数学模型及其之上的运算在计算机中如何表示和实现”的学科，就像在软件开发中提炼出其中的一个个数据结构，并加以好的设计，不仅可以提高开发效率，而且会提高软件的可靠性。 why 首先，我们学习了1.1.1数据结构的定义，1.1.2逻辑结构，1

2017-09-19 00:24:37 429

python 基础：个人自用输入输出

空空如也