自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(14)
  • 收藏
  • 关注

原创 【强化学习】【笔记】【ch.4】时序差分策略、SARSA、Q-Learning、期望SARSA

图中,上方的红色和绿色的 T 型,T 型的横线代表当前 return 值,竖线代表变化量。比如开局 Return 是 0 ,采样一次之后变到 -2,于是就从 0 开始,往 -2 的位置拉一根竖线,然后划一根横线表示当前 Return 是 -2;也就是说,每次更新 Q 值,需要目标策略,基于当前的 State,采取一个 Action,然后基于这个 Action 去更新目标策略。如下图,n=4 的意思是说我想在时间步 t 的时候更新 V 值,那么就采样 t+n 个数据,用这些数据去更新 V 值。

2025-06-12 20:37:02 550

原创 【强化学习】【笔记】【ch.3】蒙特卡洛策略

之前在 21 点游戏的案例中,在面对手牌点数和是 21 点时,由于停牌动作的 Q 值更大,所以策略更容易选择停牌,导致叫牌动作采样少,使得其 Q 值更新慢。而异策略在采样的时候,由于始终是使用相同的策略采样,所以假设在 21 点游戏案例中使用异策略,则几乎所有的 state-action pair 都会有近乎等量的样本更新 Q 值。所以整整一千万次取 trajectory 的过程中,在手牌点数和为 21 点时,选择叫牌的 Q 值小,所以取样次数少,因此就没有更多的样本去更新这里的 Q 值。

2025-06-11 16:13:57 462

原创 【强化学习】【笔记】【ch.2】贝尔曼方程,广义策略迭代(GPI)

不过我们想一想,这个案例中,往左走比往右走的期望奖励多 0.4 ,那我们为什么不定死往左走(左走概率是 1,右走是 0)呢,这样一来,策略价值函数值就为 17.8。的期望值是 17.4,而当时的策略是往左走的概率是 0.4,往右走的概率是 0.6,于是计算得到当前策略下,策略价值函数值为 17.57。现在,小人行动的策略 policy 是这样的:向右走的概率是 0.6,向左走的概率是 0.4。这是一个广义迭代策略的算法,叫做值迭代算法,也是比较早期的方法了,是在策略迭代上改进的一个算法。

2025-06-09 19:56:48 600

原创 【论文笔记】【CVPR2025】Anomize: Better Open Vocabulary Video Anomaly Detection

这篇论文是第二篇开放词汇视频异常检测(OVVAD)的论文。其实第一篇OVVAD的论文做的方法很简单,但是之所以能投CVPR,是因为提出了OVVAD这个任务。这篇论文没有“第一个提出”这块招牌,也就是说它得在方法上下功夫,才能中CVPR。(就是说检测不到新类)和(就是说无法把新类异常归类),这两个挑战其实也就是OVVAD的两个核心挑战。而论文的创新是引入了“文本增强的双流机制”,我会在后面解释这个机制是什么。

2025-06-06 14:55:29 816 1

原创 【强化学习】【笔记】【ch.1】任务定义

比如说:智能体可以指你训练的一个打飞机的模型,状态可以指当前屏幕上的代表你和敌人的飞机的位置,你所采取的行为可以是移动和射击,奖励可以是打中敌机加分以及死亡带来的扣分。开局随机获取一个状态(小球),随机执行一个 action (箭头),交给环境之后,基于分布,得到一个新的状态和奖励(0.13对应的中间的小球(状态)和 1(奖励))如上图所示,左边俩上下箭头代表所有可采取的 action,最上方三个的圆球代表环境所有可能的 state,而所有可能的 reward 是{1, 0, -1}

2025-06-05 16:28:03 695

原创 【论文笔记】【CVPR2024】Open-Vocabulary Video Anomaly Detection

为了让模型也具备“常识”去判断异常,论文首先用大语言模型(LLM)生成一系列与正常场景和异常场景相关的词汇(并非随便生成,而是基于提示词获取常见场景如“街道”、“公园”、异常场景如“爆炸”、“火光”),再用 CLIP 的文本编码器把它们转成与视觉特征同维度的向量。这部分很好懂,就是人为设计Prompt之后给到大模型,让大模型生成异常场景描述,然后基于这个描述让AIGC生成一堆视频帧,然后把这堆视频帧按照时间顺序拼接成视频片段之后,随机插入到原视频中,这样就获得了“未知异常”。这个模块是用来提取时序信息的。

2025-05-21 22:21:28 882 1

原创 【论文笔记】【部分】【2021ACM】Learning Causal Temporal Relation and Fature Discrimination for Anomaly Detection

和。时序上下文就是说忽视了(或者说没有完全利用)时序信息;特征判别性就是和用来解决时序上下文;和用来解决特征判别性。

2025-05-20 18:15:29 235 1

原创 GroundingSam,Hydra始终找不到路径?hydra.errors.MissingConfigException: Cannot find primary config XXX

以及之前的 from_pretrained 方法也要加一个默认参数你直接传入 config_name 和 ckpt_path 即可,这俩一个是 .yaml 路径,一个是 .pt 路径,比如这是我传入的方式。

2025-04-08 18:00:55 484

原创 解决:cannot import name ‘AutoModel‘ from ‘modelscope‘

【代码】解决:cannot import name ‘AutoModel‘ from ‘modelscope‘

2025-03-16 17:38:15 330

原创 试着部署Grounding Sam的时候,遇到hydra.errors.InstantiationException: Error locating target

部署了很多次Grounding Sam,每次都在这一步卡了几十分钟之后才想起来要怎么解决。在保证路径全对的情况下,安装这个包即可。

2025-03-01 17:36:46 286

原创 如何跑通OpenSeeD做场景分割

这里你可以自定义输出路径,和输入图片路径。thing_classes=['car','person','trafficlight','truck','motorcycle']#可数的事物stuff_classes=['building','sky','street','tree','rock','sidewalk']#不可数的事物这里你可以自定义要分割的东西。

2025-01-17 16:51:56 683

原创 服务器问题 bad interpreter: No such file or directory 问题解决

服务器一个盘空间不够了,管理员给移到了其他地方,这导致原本的 pip 这些命令用不了: 首先找到pip位置:(比如我的位置在这里:/data1/userhome/lm/anaconda3/envs/txy/bin/pip) 编辑pip: 打开之后大概率看到这样的东西: 修改第一行为你新的编译器位置:(我这里已经修改了)

2024-12-11 16:56:07 557

原创 部署通义千问Qwen模型时,遇到Flash-Attention2装不上的问题

3. 完成这些之后,应该就不需要安装Flash-Attention2了。我不去装什么Flash-Attention2,说是要编译好几个小时,然后我这边一直报错。直接从头开始说我的部署方式,

2024-10-30 18:58:44 1216

原创 在使用RAG时,用FlashrankRerank中的模型作为Ranker时,从HuggingFace无法下载的解决方法

如果愿意修改“default_cache_dir”这个参数,修改为下载到自己本地的模型路径,那么可以解决问题。结合“model_url”和“model_file_map”,从网上把模型下载到本地。或者也可以修改FlashrankRerank的源码部分:(以下是我修改的部分)首先,进入到FlashrankRerank的源码部分,找到这句代码。

2024-10-18 21:31:03 430 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除