清米Dummy-CSDN博客

原创【强化学习】【笔记】【ch.4】时序差分策略、SARSA、Q-Learning、期望SARSA

图中，上方的红色和绿色的 T 型，T 型的横线代表当前 return 值，竖线代表变化量。比如开局 Return 是 0 ，采样一次之后变到 -2，于是就从 0 开始，往 -2 的位置拉一根竖线，然后划一根横线表示当前 Return 是 -2；也就是说，每次更新 Q 值，需要目标策略，基于当前的 State，采取一个 Action，然后基于这个 Action 去更新目标策略。如下图，n=4 的意思是说我想在时间步 t 的时候更新 V 值，那么就采样 t+n 个数据，用这些数据去更新 V 值。

2025-06-12 20:37:02 550

原创【强化学习】【笔记】【ch.3】蒙特卡洛策略

之前在 21 点游戏的案例中，在面对手牌点数和是 21 点时，由于停牌动作的 Q 值更大，所以策略更容易选择停牌，导致叫牌动作采样少，使得其 Q 值更新慢。而异策略在采样的时候，由于始终是使用相同的策略采样，所以假设在 21 点游戏案例中使用异策略，则几乎所有的 state-action pair 都会有近乎等量的样本更新 Q 值。所以整整一千万次取 trajectory 的过程中，在手牌点数和为 21 点时，选择叫牌的 Q 值小，所以取样次数少，因此就没有更多的样本去更新这里的 Q 值。

2025-06-11 16:13:57 462

原创【强化学习】【笔记】【ch.2】贝尔曼方程，广义策略迭代（GPI）

不过我们想一想，这个案例中，往左走比往右走的期望奖励多 0.4 ，那我们为什么不定死往左走（左走概率是 1，右走是 0）呢，这样一来，策略价值函数值就为 17.8。的期望值是 17.4，而当时的策略是往左走的概率是 0.4，往右走的概率是 0.6，于是计算得到当前策略下，策略价值函数值为 17.57。现在，小人行动的策略 policy 是这样的：向右走的概率是 0.6，向左走的概率是 0.4。这是一个广义迭代策略的算法，叫做值迭代算法，也是比较早期的方法了，是在策略迭代上改进的一个算法。

2025-06-09 19:56:48 600

原创【论文笔记】【CVPR2025】Anomize: Better Open Vocabulary Video Anomaly Detection

这篇论文是第二篇开放词汇视频异常检测（OVVAD）的论文。其实第一篇OVVAD的论文做的方法很简单，但是之所以能投CVPR，是因为提出了OVVAD这个任务。这篇论文没有“第一个提出”这块招牌，也就是说它得在方法上下功夫，才能中CVPR。（就是说检测不到新类）和（就是说无法把新类异常归类），这两个挑战其实也就是OVVAD的两个核心挑战。而论文的创新是引入了“文本增强的双流机制”，我会在后面解释这个机制是什么。

2025-06-06 14:55:29 816 1

原创【强化学习】【笔记】【ch.1】任务定义

比如说：智能体可以指你训练的一个打飞机的模型，状态可以指当前屏幕上的代表你和敌人的飞机的位置，你所采取的行为可以是移动和射击，奖励可以是打中敌机加分以及死亡带来的扣分。开局随机获取一个状态（小球），随机执行一个 action （箭头），交给环境之后，基于分布，得到一个新的状态和奖励（0.13对应的中间的小球（状态）和 1（奖励））如上图所示，左边俩上下箭头代表所有可采取的 action，最上方三个的圆球代表环境所有可能的 state，而所有可能的 reward 是{1, 0, -1}

2025-06-05 16:28:03 695

原创【论文笔记】【CVPR2024】Open-Vocabulary Video Anomaly Detection

为了让模型也具备“常识”去判断异常，论文首先用大语言模型（LLM）生成一系列与正常场景和异常场景相关的词汇（并非随便生成，而是基于提示词获取常见场景如“街道”、“公园”、异常场景如“爆炸”、“火光”），再用 CLIP 的文本编码器把它们转成与视觉特征同维度的向量。这部分很好懂，就是人为设计Prompt之后给到大模型，让大模型生成异常场景描述，然后基于这个描述让AIGC生成一堆视频帧，然后把这堆视频帧按照时间顺序拼接成视频片段之后，随机插入到原视频中，这样就获得了“未知异常”。这个模块是用来提取时序信息的。

2025-05-21 22:21:28 882 1

原创【论文笔记】【部分】【2021ACM】Learning Causal Temporal Relation and Fature Discrimination for Anomaly Detection

和。时序上下文就是说忽视了（或者说没有完全利用）时序信息；特征判别性就是和用来解决时序上下文；和用来解决特征判别性。

2025-05-20 18:15:29 235 1

原创 GroundingSam，Hydra始终找不到路径？hydra.errors.MissingConfigException: Cannot find primary config XXX

以及之前的 from_pretrained 方法也要加一个默认参数你直接传入 config_name 和 ckpt_path 即可，这俩一个是 .yaml 路径，一个是 .pt 路径，比如这是我传入的方式。

2025-04-08 18:00:55 484

原创解决：cannot import name ‘AutoModel‘ from ‘modelscope‘

【代码】解决：cannot import name ‘AutoModel‘ from ‘modelscope‘

2025-03-16 17:38:15 330

原创试着部署Grounding Sam的时候，遇到hydra.errors.InstantiationException: Error locating target

部署了很多次Grounding Sam，每次都在这一步卡了几十分钟之后才想起来要怎么解决。在保证路径全对的情况下，安装这个包即可。

2025-03-01 17:36:46 286

原创如何跑通OpenSeeD做场景分割

这里你可以自定义输出路径，和输入图片路径。thing_classes=['car','person','trafficlight','truck','motorcycle']#可数的事物stuff_classes=['building','sky','street','tree','rock','sidewalk']#不可数的事物这里你可以自定义要分割的东西。

2025-01-17 16:51:56 683

原创服务器问题 bad interpreter: No such file or directory 问题解决

服务器一个盘空间不够了，管理员给移到了其他地方，这导致原本的 pip 这些命令用不了：首先找到pip位置：（比如我的位置在这里：/data1/userhome/lm/anaconda3/envs/txy/bin/pip）编辑pip：打开之后大概率看到这样的东西：修改第一行为你新的编译器位置：（我这里已经修改了）

2024-12-11 16:56:07 557

原创部署通义千问Qwen模型时，遇到Flash-Attention2装不上的问题

3. 完成这些之后，应该就不需要安装Flash-Attention2了。我不去装什么Flash-Attention2，说是要编译好几个小时，然后我这边一直报错。直接从头开始说我的部署方式，

2024-10-30 18:58:44 1216

原创在使用RAG时，用FlashrankRerank中的模型作为Ranker时，从HuggingFace无法下载的解决方法

如果愿意修改“default_cache_dir”这个参数，修改为下载到自己本地的模型路径，那么可以解决问题。结合“model_url”和“model_file_map”，从网上把模型下载到本地。或者也可以修改FlashrankRerank的源码部分：（以下是我修改的部分）首先，进入到FlashrankRerank的源码部分，找到这句代码。

2024-10-18 21:31:03 430 1