温柔哥`-CSDN博客

原创 Vad-R1：通过从感知到认知的思维链进行视频异常推理

针对传统视频异常检测仅能判断“有无”而缺乏因果推理的局限，提出视频异常推理（VAR）任务，并构建端到端框架 Vad-R1。框架引入感知-认知四阶段 Chain-of-Thought，引导模型由全局场景逐步聚焦至异常本质；同时发布 8 k+ 视频组成的 Vad-Reasoning 数据集，其中 1.8 k 样本含高质量推理链用于监督微调，其余 6 k+ 样本仅具弱标签。为利用弱标注强化推理可靠性，设计 Anomaly Verification Augmented-GRPO 算法，通过“剪视频-复判”自验证奖励

2025-05-30 14:40:19 1191

原创 T2I-R1：通过语义级与图像 token 级协同链式思维强化图像生成

2025-05-10 14:24:08 1036

原创 Visual-RFT：视觉强化微调

这篇论文提出了一种全新的多模态模型微调范式，名为视觉强化微调（Visual-RFT）。它将语言模型中已有的强化微调（RFT）方法，首次拓展到了视觉任务上。论文的核心思想是：通过设计可验证的奖励函数（如分类是否正确、检测框与真实框的IoU和置信度等），用强化学习算法（特别是GRPO）来优化大型视觉语言模型（LVLMs），从而在少样本甚至极少样本场景下，实现对图像分类、物体检测、推理定位、开放词汇检测等任务的显著提升。与传统的监督微调（SFT）相比，Visual-RFT不仅更数据高效，而且更能促使模型“理解”任

2025-04-02 16:43:51 1020

原创 Seg-Zero：通过认知强化实现的推理链引导分割

这篇论文提出了Seg-Zero，一个基于强化学习的框架，用于解决指代表达分割（Referring Expression Segmentation）任务。与传统的基于监督学习的分割方法不同，Seg-Zero通过解耦推理模型和分割模型，采用强化学习激活模型的推理能力，能够在没有显式推理数据的情况下生成推理链并执行像素级分割。实验表明，Seg-Zero在零-shot任务中表现优异，尤其在跨域数据上的泛化能力优于现有方法。

2025-04-01 20:51:31 835

原创 HyperAD：学习弱监督音视频暴力检测在双曲空间中的方法

该研究提出了一种基于双曲几何的HyperVD框架，用于弱监督音视频暴力检测。通过在双曲空间中学习片段表示，HyperVD有效提高了暴力与非暴力实例的区分性，实验结果在XD-Violence数据集上超越了现有方法。

2025-03-19 11:40:53 971

原创双曲空间学习记录

关于双曲空间的一些学习记录，近期应该还会持续更新。。。

2025-03-18 17:55:39 508

原创视频异常检测

对视频异常检测领域的一些论文的性能的整理

2025-03-11 20:43:11 464

原创 AnyAnomaly: 基于大型视觉语言模型的零样本可定制视频异常检测

这篇论文提出了一种新型的视频异常检测方法，称为AnyAnomaly。该方法通过零-shot的方式，利用大规模视觉语言模型（LVLM）和上下文感知的视觉问答（VQA）技术，解决了传统视频异常检测方法在多种环境下泛化能力不足的问题。AnyAnomaly不需要额外的训练数据，用户可以通过自定义异常事件的文本描述来检测视频中的异常，适用于各种不同的视频环境。实验表明，AnyAnomaly在多个标准数据集上的表现超越了传统的异常检测方法，尤其在跨领域泛化能力上表现突出。

2025-03-11 20:01:38 1459 2

原创 ACM MM 2025 Overleaf 模板指导

本文介绍了 ACM 文章的排版模板 “acmart” 的使用方法，涵盖了文档结构、格式化规则、数学公式、图像、表格、引用格式以及多语言支持等内容。文章详细说明了如何正确使用 $\LaTeX$ 进行章节划分、插入图表、编写数学公式，并遵循 ACM 期刊和会议论文的格式要求。此外，还包括了 SIGCHI 扩展摘要的特殊格式、附录的使用、致谢部分的编写，以及参考文献的管理方式。本文提供了具体的代码示例和最佳实践，以帮助作者高效地编写符合 ACM 规范的论文。

2025-03-08 11:56:47 9736 14

原创 AnomalyRuler：遵循规则-利用大语言模型进行视频异常检测的推理

这篇论文提出了AnomalyRuler，一个基于推理框架的视频异常检测（VAD）方法，旨在提升检测结果的可解释性和公众信任。AnomalyRuler通过两个阶段进行推理：归纳阶段，通过少量正常样本生成检测规则，推导出正常行为与异常行为的区分；演绎阶段，使用这些规则对测试视频进行异常检测，并结合平滑和投票机制优化检测结果。该方法不需要大量异常样本，能够快速适应不同的VAD场景，并在多个标准数据集上表现出优越的性能和推理能力，超越了传统的VAD方法。

2025-02-14 20:09:46 1754

原创 VERA: 基于视觉-语言模型的解释性视频异常检测框架

VERA 是一种无需修改模型参数的可解释视频异常检测 (VAD) 方法。通过语言化学习，VERA 在训练阶段优化指导性问题，以增强冻结的视觉-语言模型 (VLM) 的推理能力。在推理阶段，VERA 结合场景和时间上下文，通过粗到细的方法优化异常评分，实现帧级检测。实验表明，VERA 在 UCF-Crime 和 XD-Violence 数据集上取得了先进性能，并且相比现有方法，无需指令微调或额外推理模块，大幅降低计算和标注成本。

2025-02-07 17:06:20 1330

原创 MCANet: 基于多模态字幕感知的大语言模型训练无关视频异常检测

就是仿照CVPR'24那篇LAVAD来做的，几乎一摸一样，就引入了一个音频字幕

2025-01-10 21:42:07 1484 2

原创 CUVA：对视频异常因果理解的综合基准（A Comprehensive Benchmark for Causation Understanding of Video Anomaly）

这篇论文主要是发布了一个关于因果理解的数据集，考虑的很全面，包括是什么、为什么、多么重要。

2024-09-26 12:59:21 1319 4

原创安装conda并添加到环境变量中

安装conda，并且手动将其添加到环境变量中！

2024-08-25 15:29:51 2953

原创大模型是如何训练出来的？

①预训练，此时只是单纯的利用网络上爬取的资料学习词语接龙，可以作为后面阶段的不错的初始参数；②微调，此时使用预训练好的模型参数作为初始参数，并且冻结这些参数，添加一些新的参数并且只训练这些新参数，而且要使用QA的形式，即指令形式，这样微调出来的模型才可以很好的回答人类所提出的问题；③强化学习，通过反馈来改进自己的答案，好的答案概率提高，不好的答案概率降低。

2024-08-23 19:54:40 1028

原创利用gradio为InternVL构建UI界面

我这边自己写了两个UI，一个是纯文本的，一个是支持多图片的，不过都是单论对话，没有历史对话信息。

2024-08-23 17:26:58 574

原创在不训练模型的情况下强化语言模型

在不训练模型的情况下，如何增强语言模型的能力

2024-08-23 15:43:25 414

原创 VadCLIP：将视觉语言模型应用于弱监督视频异常检测（VadCLIP: Adapting Vision-Language Models for WSVAD）

作者主要是提出了WSVAD的`新范式VadCLIP`，是`双分支`结构，第一个分支利用视觉信息实现二分类，为粗粒度；第二个分支利用视觉语言对齐方法实现多分类，为细粒度。VadCLIP主要包括`3个组件`，分别为：①LGT-Adapter捕获时间依赖；②Two prompt mechanisms有效地将CLIP用到WSVAD任务；③MIL-Align实现了弱监督下对齐范式的优化，尽量保留了预训练的知识。

2024-08-16 17:03:30 1578

原创 VAD-LLaMA：基于大语言模型的视频异常检测和解释（Video Anomaly Detection and Explanation via Large Language Models）

作者主要是提出了一个新颖的VAD方法，即VAD-LLaMA，将VLLMs加进了VAD框架，使得模型不仅可以检测异常，还可以解释异常，当然了，检测异常的时候还不用手动选择阈值。创新点主要是：①在MIL基线即VADor上引入了一个LTC来建模长期上下文（还有一个扩展，引入短期历史信息）；②提出了三阶段训练方法，使得在训练VLLMs到VAD领域时效率更高，即减少数据需求和降低标注成本。

2024-08-13 17:50:53 2229 3

原创 Hugging Face 使用镜像下载模型/数据集

使用 huggingface-cli 快速下载大模型

2024-08-09 11:14:36 2442

原创 OVVAD：开放词汇视频异常检测（Open-Vocabulary Video Anomaly Detection）

这篇研究的是弱监督下的开放词汇视频异常检测任务，方法划分为2个任务，一个是只管检测异常，一个只管给异常分类。他认为重要的有：①是几乎没权重的TA模块；②可以给视觉信号注入语义知识的SKI模块；③可以生成伪异常样本的NAS模块。

2024-08-07 15:21:38 948 4

原创 HAWK：学习理解开放世界视频异常（HAWK: Learning to Understand Open-World Video Anomalies）

主要是对现有的数据集进行了改造（生成语言描述+QA对），然后是提出了结合运动模态的新方法HAWK，它生成的语言描述更关注于对异常的理解，并且更倾向于泛化到开放世界场景。

2024-07-30 22:46:31 647

原创 Holmes-VAD：基于多模态大语言模型的无偏且可解释的视频异常检测（ Towards Unbiased and Explainable Video Anomaly Detection）

首先提出了Holmes-VAD方法来解决了目前VAD方法中存在偏差和缺乏解释性的问题，然后构建了VAD-Instruct50k数据集来验证了Holmes-VAD方法的有效性，在构建数据集时引入了高效的标注范式（单帧注释、事件片段生成、时间片段描述）

2024-07-27 21:49:59 2477 4

原创 VANE-Bench：用于对话式大语言模型的视频异常检测评估基准（Video Anomaly Evaluation Benchmark for Conversational LMMs）

本文主要提出了VANE-Bench数据集，它旨在评估Video-LMMs在VAD任务中的表现

2024-07-25 00:33:18 1326

原创 Windows系统连接Linux服务器时配置免密登录

想要VSCode连接服务器时不需要每次打开都得重复输入密码的话，就先把Windows系统连接服务器时的免密登录配置好，VSCode也就不需要了

2024-07-24 15:13:01 1812

原创基于弱监督学习的视频异常检测与鲁棒时序特征幅度学习（Robust Temporal Feature Magnitude Learning）

提出了RTMF方法，显著提高了对微小异常的辨别能力和样本的使用效率。

2024-07-23 21:08:49 1324 1

原创不仅看，还要听：弱监督下的多模态暴力检测学习（Learning Multimodal Violence Detection under Weak Supervision）

本文主要研究弱监督下的基于视听两种模态下的大规模暴力检测，大规模是指提出了大规模暴力数据集XD-Violence，并且本文提出的方法可以用在离线检测和实时检测两种方面。

2024-07-15 10:30:47 1967 2

原创图神经网络（GNN/GCN）

主要是通过聚合、更新、循环三大步骤来进行的。

2024-07-13 16:08:49 1265

原创在监控视频中的现实世界异常检测（Real-world Anomaly Detection in Surveillance Videos）

使用弱标记的正常和异常视频数据来训练一个深度MIL框架，是一个视频异常检测的通用模型，并且在新提出的数据集上验证其有效性。并展示了提出的数据集在异常识别任务种的实用性（benchmark）

2024-07-12 14:46:59 1023

原创猫狗大战（Cats Vs Dogs）Pytorch版

跑起来猫狗大战代码的详细步骤（包含代码和数据集）

2024-07-07 16:20:37 1505

原创利用大型语言模型进行视频异常检测（Harnessing Large Language Models for Training-free Video Anomaly Detection）

提出LAVAD方法，利用预训练好的LLMs和VLMs来完成视频异常检测，不需要数据收集和模型训练。

2024-07-05 20:49:36 2118 6

原创算法-选择排序

如下数组 A 中，变量 i （从 1 ~ n-1），初始令变量 min = i，，变量 j 从 i+1 ~ n 依次遍历元素，若 A[min] > A[j]，则更新 min = j，当变量 j 遍历到 n 后，判断 i 是否还与 min 相等，若相等则说明当前最小值就是 i 所指向的元素，若不相等，则需要交换 i 与 min 所指向的元素，这样就确定了一个最小值元素，进行下一次上述流程，总过需要 n-1 趟便可以将数组 A 排序为从小到大。每一趟在待排序元素中选取关键字最小的元素加入有序子序列。

2024-03-07 10:50:39 417

原创 C语言-一维数组的定义

数组通过变量名后加方括号表示，方括号里面是数组可以容纳的成员数量（即长度）。//数组 arr ，里面包含 10 个成员，每个成员都是 int 类型// 或者10声明数组时，必须给出数组的大小。数组可以在声明时，使用大括号，同时对每一个成员赋值。变形形式 1：C 语言允许省略方括号里面的数组成员数量，这时根据大括号里面的值的数量，自动确定数组的长度。// 自动确定数量为 5 ，与上面的定义方式完全相同变形形式2：对数组部分元素赋初值：如果大括号里面的值，少于数组的成员数量，那么。

2024-03-03 16:52:12 2177

原创 C语言-对数组的理解

数组提供了一种连续的内存空间来存储相同类型的数据，这样可以提高内存的使用效率，并且方便进行数据的访问和修改。模拟现实世界：在很多实际情况中，一组相关的数据可以看作是一个整体，例如一周的每天温度、一个月的销售额等。：数组是一种高效的数据结构，可以快速地访问、修改和遍历其中的数据。：通过数组，可以将复杂的数据结构和运算简化为简单的数组操作和访问，从而简化代码，提高代码的可读性和可维护性。故数组元素在内存中依次紧密有序排列，占据的空间的大小，取决于数组的长度和数组中元素的类型。中引用的是这块连续空间的。

2024-03-03 16:22:32 636

原创 C语言-break、continue和goto关键字

如果我们没有找到这样的因子，那么 n 就是素数，因为任何大于 sqrt(n) 的数都不可能是 n 的因子（否则，就会有一个小于 sqrt(n) 的对应因子）。如下面这段示例代码中，当 i=1 时就满足了 if 判断条件，则会执行 break 语句，这时 for 循环就结束了，相当于说 break 下面的语句一次也不会执行到！在嵌套循环中，break 结束的是包裹 break 关键字的最近的一层循环！因此，我们只需要检查到 sqrt(n) 就足够了，这可以大大减少我们需要检查的数的数量，从而提高算法的效率。

2024-02-29 15:34:52 1080

原创 C语言-“无限”循环和嵌套循环

所谓的嵌套循环，就是在一个循环中又写了一个循环，这个称之为两层循环。当然了，第二层循环中还可以再写一个循环，这样就变成了三层循环。不过，实际开发中，我们最多见到的嵌套循环是两层。一般不会出现超过三层的嵌套循环。如果将要出现，一定要停下来重新梳理业务逻辑，重新思考算法的实现，控制在三层以内。否则，可读性会很差。实质上，嵌套循环就是把内层循环当成外层循环的循环体。只有当内层循环的循环条件为false（值为0）时，才会完全跳出内层循环，才可结束外层的当次循环，开始下一次的外层循环。设外层循环次数为m。

2024-02-29 14:58:00 1235

原创 C语言-循环结构

循环语句具有在某些条件满足的情况下，反复执行特定代码的功能。都具备四个要素for 和 while 循环可能一次也不执行，单 do-while 循环至少会执行一次如何选择？如果有明显的循环次数（范围）使用 for 循环，若没有则 while 循环，如果要求至少执行一次则使用 do-while 循环。

2024-02-29 11:26:47 1726

原创 C语言-分支结构

让我们来分析一下第二种的错误写法，因为成绩但凡大于等于 80 的则一定也会大于等于 60，所以只要成绩大于等于 60 则就没有机会进行是否大于等于 80 的判断了，故这是错误的写法。如果表达式的值等于某个 case 中的常量值，则执行对应 case 中的执行语句。例如：当 type=1 时输出香蕉，当 type=2 时输出苹果，当 type=3 时输出梨子，则下列两种写法的顺序都是可以的。例如：成绩在 [0, 59] 之间为不合格，成绩在 [60, 79] 时为合格，成绩在 [80, 100] 时为优秀。

2024-02-06 10:54:56 897

原创 MQ-消息转换器

定义一个消费者，监听 object.queue 队列并消费消息，消息类型和我们发送消息使用的类型一样，都是 Map 类型import org/*** @author 温柔哥// 测试转换器 @RabbitListener(queues = "object.queue") public void listenObjectQueue1(Map < String , Object > message) {

2024-02-02 18:26:40 1059

原创 MQ-使用SpringAMQP实现发布订阅模型之Topic Exchange

Topic 交换机接收的消息 RoutingKey 必须是多个单词，以**.**分割Topic 交换机与队列绑定时的 bindingKey 可以指定通配符。

2024-02-02 17:04:54 1545

Vad-R1：通过从感知到认知的思维链进行视频异常推理

本文聚焦传统视频异常检测仅“判有无”而缺乏深层解释的问题，首次提出**视频异常推理（VAR）**任务，并构建端到端框架 Vad-R1。我们设计“感知-认知”四步推理链 P2C-CoT，使模型先全局观察再逐级推理；制作含 8 k+ 视频的 Vad-Reasoning 数据集，其中 1.8 k 条配有高质量推理链用于监督微调，其余 6 k+ 条仅有弱标签。为在弱标下提升推理可靠性，提出 AVA-GRPO 强化学习算法，利用“剪视频-再判断”自验证奖励抑制模型只看少帧即下结论的倾向。两阶段训练后，Vad-R1 在自建测试集取得 87.5 % 准确率、mIoU 0.713，并在 VANE 基准显著超越多种开源/专有多模态大模型；随机或非结构化推理均难带来同等提升。结果表明结构化推理链与自验证强化机制是提升异常深度理解的关键，为可解释视频安全分析提供了新范式。

2025-05-30

T2I-R1：通过语义级与图像 token 级协同链式思维强化图像生成

T2I-R1 将“语义级 Chain-of-Thought（先想清全局场景）”和“图像 token 级 Chain-of-Thought（逐 patch 细化像素）”首次合并到同一次文本-生成-图像流程中，并用强化学习框架 BiCoT-GRPO 联合优化二者：模型先用语义 CoT 规划，再用 token CoT 落实细节；多重视觉专家评分（人类偏好、检测器、VQA 等）作为组相对奖励。以 7 B 基座 Janus-Pro 训练后，T2I-R1 在 T2I-CompBench 提升 13%，在 WISE 提升 19%，整体超越扩散系 SOTA FLUX.1，说明双层 CoT 协同能显著增强复杂提示的理解与图像质量。

2025-05-10

TA关注的人

Vad-R1：通过从感知到认知的思维链进行视频异常推理

T2I-R1：通过语义级与图像 token 级协同链式思维强化图像生成

Visual-RFT：视觉强化微调

ACM MM 2025 Overleaf 模板指导

AnyAnomaly: 基于大型视觉语言模型的零样本可定制视频异常检测

HyperAD：学习弱监督音视频暴力检测在双曲空间中的方法

遵循规则：利用大语言模型进行视频异常检测的推理

VERA: 基于视觉-语言模型的解释性视频异常检测框架

MCANet: 基于多模态字幕感知的大语言模型训练无关视频异常检测

CUVA：对视频异常因果理解的综合基准

VadCLIP：将视觉语言模型应用于弱监督视频异常检测

VAD-LLaMA 基于大语言模型的视频异常检测和解释

开放词汇视频异常检测（Open-Vocabulary Video Anomaly Detection）

利用大型语言模型进行视频异常检测

HAWK：学习理解开放世界视频异常

Holmes-VAD - 基于多模态大语言模型的无偏且可解释的视频异常检测

用于对话式大语言模型的视频异常检测评估基准

基于弱监督学习的视频异常检测与鲁棒时序特征幅度学习（RTFM）

猫狗大战（Cats Vs Dogs）Pytorch版

Learning Multimodal Violence Detection under Weak Supervision

Real-world Anomaly Detection in Surveillance Videos

MQ-常见消息模型及基本消息队列（basicQueue）

MQ-RabbitMQ介绍和安装

Docker-利用DockerCompose部署cloud-demo微服务集群

Docker-认识和安装DockerCompose

Docker-使用Dockerfile自定义镜像

mysql-5.7.25

nacos-server-1.4.1

猴子爬山，用了奇/偶数步，有多少种方案