- 博客(14)
- 收藏
- 关注
原创 【强化学习】【笔记】【ch.4】时序差分策略、SARSA、Q-Learning、期望SARSA
图中,上方的红色和绿色的 T 型,T 型的横线代表当前 return 值,竖线代表变化量。比如开局 Return 是 0 ,采样一次之后变到 -2,于是就从 0 开始,往 -2 的位置拉一根竖线,然后划一根横线表示当前 Return 是 -2;也就是说,每次更新 Q 值,需要目标策略,基于当前的 State,采取一个 Action,然后基于这个 Action 去更新目标策略。如下图,n=4 的意思是说我想在时间步 t 的时候更新 V 值,那么就采样 t+n 个数据,用这些数据去更新 V 值。
2025-06-12 20:37:02
550
原创 【强化学习】【笔记】【ch.3】蒙特卡洛策略
之前在 21 点游戏的案例中,在面对手牌点数和是 21 点时,由于停牌动作的 Q 值更大,所以策略更容易选择停牌,导致叫牌动作采样少,使得其 Q 值更新慢。而异策略在采样的时候,由于始终是使用相同的策略采样,所以假设在 21 点游戏案例中使用异策略,则几乎所有的 state-action pair 都会有近乎等量的样本更新 Q 值。所以整整一千万次取 trajectory 的过程中,在手牌点数和为 21 点时,选择叫牌的 Q 值小,所以取样次数少,因此就没有更多的样本去更新这里的 Q 值。
2025-06-11 16:13:57
462
原创 【强化学习】【笔记】【ch.2】贝尔曼方程,广义策略迭代(GPI)
不过我们想一想,这个案例中,往左走比往右走的期望奖励多 0.4 ,那我们为什么不定死往左走(左走概率是 1,右走是 0)呢,这样一来,策略价值函数值就为 17.8。的期望值是 17.4,而当时的策略是往左走的概率是 0.4,往右走的概率是 0.6,于是计算得到当前策略下,策略价值函数值为 17.57。现在,小人行动的策略 policy 是这样的:向右走的概率是 0.6,向左走的概率是 0.4。这是一个广义迭代策略的算法,叫做值迭代算法,也是比较早期的方法了,是在策略迭代上改进的一个算法。
2025-06-09 19:56:48
600
原创 【论文笔记】【CVPR2025】Anomize: Better Open Vocabulary Video Anomaly Detection
这篇论文是第二篇开放词汇视频异常检测(OVVAD)的论文。其实第一篇OVVAD的论文做的方法很简单,但是之所以能投CVPR,是因为提出了OVVAD这个任务。这篇论文没有“第一个提出”这块招牌,也就是说它得在方法上下功夫,才能中CVPR。(就是说检测不到新类)和(就是说无法把新类异常归类),这两个挑战其实也就是OVVAD的两个核心挑战。而论文的创新是引入了“文本增强的双流机制”,我会在后面解释这个机制是什么。
2025-06-06 14:55:29
816
1
原创 【强化学习】【笔记】【ch.1】任务定义
比如说:智能体可以指你训练的一个打飞机的模型,状态可以指当前屏幕上的代表你和敌人的飞机的位置,你所采取的行为可以是移动和射击,奖励可以是打中敌机加分以及死亡带来的扣分。开局随机获取一个状态(小球),随机执行一个 action (箭头),交给环境之后,基于分布,得到一个新的状态和奖励(0.13对应的中间的小球(状态)和 1(奖励))如上图所示,左边俩上下箭头代表所有可采取的 action,最上方三个的圆球代表环境所有可能的 state,而所有可能的 reward 是{1, 0, -1}
2025-06-05 16:28:03
695
原创 【论文笔记】【CVPR2024】Open-Vocabulary Video Anomaly Detection
为了让模型也具备“常识”去判断异常,论文首先用大语言模型(LLM)生成一系列与正常场景和异常场景相关的词汇(并非随便生成,而是基于提示词获取常见场景如“街道”、“公园”、异常场景如“爆炸”、“火光”),再用 CLIP 的文本编码器把它们转成与视觉特征同维度的向量。这部分很好懂,就是人为设计Prompt之后给到大模型,让大模型生成异常场景描述,然后基于这个描述让AIGC生成一堆视频帧,然后把这堆视频帧按照时间顺序拼接成视频片段之后,随机插入到原视频中,这样就获得了“未知异常”。这个模块是用来提取时序信息的。
2025-05-21 22:21:28
882
1
原创 【论文笔记】【部分】【2021ACM】Learning Causal Temporal Relation and Fature Discrimination for Anomaly Detection
和。时序上下文就是说忽视了(或者说没有完全利用)时序信息;特征判别性就是和用来解决时序上下文;和用来解决特征判别性。
2025-05-20 18:15:29
235
1
原创 GroundingSam,Hydra始终找不到路径?hydra.errors.MissingConfigException: Cannot find primary config XXX
以及之前的 from_pretrained 方法也要加一个默认参数你直接传入 config_name 和 ckpt_path 即可,这俩一个是 .yaml 路径,一个是 .pt 路径,比如这是我传入的方式。
2025-04-08 18:00:55
484
原创 解决:cannot import name ‘AutoModel‘ from ‘modelscope‘
【代码】解决:cannot import name ‘AutoModel‘ from ‘modelscope‘
2025-03-16 17:38:15
330
原创 试着部署Grounding Sam的时候,遇到hydra.errors.InstantiationException: Error locating target
部署了很多次Grounding Sam,每次都在这一步卡了几十分钟之后才想起来要怎么解决。在保证路径全对的情况下,安装这个包即可。
2025-03-01 17:36:46
286
原创 如何跑通OpenSeeD做场景分割
这里你可以自定义输出路径,和输入图片路径。thing_classes=['car','person','trafficlight','truck','motorcycle']#可数的事物stuff_classes=['building','sky','street','tree','rock','sidewalk']#不可数的事物这里你可以自定义要分割的东西。
2025-01-17 16:51:56
683
原创 服务器问题 bad interpreter: No such file or directory 问题解决
服务器一个盘空间不够了,管理员给移到了其他地方,这导致原本的 pip 这些命令用不了: 首先找到pip位置:(比如我的位置在这里:/data1/userhome/lm/anaconda3/envs/txy/bin/pip) 编辑pip: 打开之后大概率看到这样的东西: 修改第一行为你新的编译器位置:(我这里已经修改了)
2024-12-11 16:56:07
557
原创 部署通义千问Qwen模型时,遇到Flash-Attention2装不上的问题
3. 完成这些之后,应该就不需要安装Flash-Attention2了。我不去装什么Flash-Attention2,说是要编译好几个小时,然后我这边一直报错。直接从头开始说我的部署方式,
2024-10-30 18:58:44
1216
原创 在使用RAG时,用FlashrankRerank中的模型作为Ranker时,从HuggingFace无法下载的解决方法
如果愿意修改“default_cache_dir”这个参数,修改为下载到自己本地的模型路径,那么可以解决问题。结合“model_url”和“model_file_map”,从网上把模型下载到本地。或者也可以修改FlashrankRerank的源码部分:(以下是我修改的部分)首先,进入到FlashrankRerank的源码部分,找到这句代码。
2024-10-18 21:31:03
430
1
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人