自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(12)
  • 收藏
  • 关注

原创 OPE| importance sampling methods: IS,PDIS,WIS,WPDIS,CWPDIS

【代码】OPE| importance sampling methods: IS,PDIS,WIS,WPDIS,CWPDIS。

2024-05-10 01:23:29 406

原创 OPE in RL|强化学习中的离策略评估方法

除了IH,每一种DM 都对应三种HM: standard doubly robust (DR), weighted doubly robust (WDR), and MAGIC。IPS核心思想:通过行为策略和待评估策略的重要性采样比率,将历史数据中的奖励reward重新加权,目的是衡量在行为策略下奖励符合待评估策略的可能性。总的来说,MAGIC+FQE 或者 MAGIC+Q_pi(lamda) 在混合方法里表现最好。每一种DM:MAGIC>WDR>DR,但是MAGIC有多余的超参数要调。

2024-05-06 18:22:55 694 1

原创 tf/encoder|Error合集

pkl文件压缩的pandas和解压缩的pandas必须是同一个版本。用于计算张量tensor沿着指定的数轴(tensor的某一维度)上的的平均值,主要用作降维或者计算tensor(图像)的平均值。axis=0:按照列平均axis=1:按照行平均区分:tf.reduce_mean & np.mean几乎等价,np.mean由中输出参数的类型默认与在负数部分有一个较小的斜率,目的是处理稀疏梯度的情况(sparse gradients),比如在训练生成对抗网络时。

2024-05-05 19:51:07 516 1

原创 RL强化学习基础|Q learning|test on FrozenLake代码小实验

Frozen Lake游戏的设定是有slippery (有滑动,即env.step(action)不一定是指的前面选出来的action,有一定概率是其他的方向)和 not slippery(不滑动,即env.step(action)就是指的前面选出来的action,类似于deterministic policy),图如下,根据小人的状态有不同的情况:(图表示每100个episode的累计奖励)epsilon指的是选择探索的改了吧,大部分时候探索的机会很小。main函数线运行15000 次。

2024-03-02 01:32:44 355 1

原创 【无标题】pessimistic|offline RL notes

悲观主义--通过惩罚penalize epistemic uncertainty,去除eliminate spurious correlation。面临的问题与离线学习完全相反:因为我们可以更多探索;原因:epistemic uncertainty(知识的)---会产生--spurious correlation。比如说:uncertainty比较大,减掉lower confidence bound,选择比较确定的动作;--评估 基于数据的估算 的 不确定性。目标:找个策略--max期望累计奖励。

2024-02-29 19:34:24 423

原创 强化学习|01 马尔可夫决策过程 MDP

【原因1:变量是连续的(continuous),需要用函数表示这些随机变量之间的关系;原因2:其他变量如A动作,R回报,可能也随时间变化,不止只有状态转移】图来自,这位博主写的很好。

2024-02-20 07:27:31 301 1

原创 python pickle

序列化和反序列化(serializing and deserializing)对象结构。

2024-02-20 07:01:28 120 1

原创 强化学习sepsis论文复现|02 数据准备:在postgresql本地安装mimic-iii数据集

2.github下载mimic code postgres building的代码。3.下载mimic-iii数据集,这个还需要答题,好麻烦。1.安装postgres。

2024-02-19 22:55:46 438 2

原创 强化学习sepsis论文复现|01 psycopg2库导入失败:ImportError: DLL load failed while importing _psycopg: 找不到指定的模块。

最近复现The artificial intelligence clinician learns optimal treatment strategies for sepsis in intensive care的论文开个贴记录遇到的问题,我用的jupyter notebook。

2024-02-19 21:34:24 2010 1

原创 jupyter notebook|如何导入.py的工具包文件

2.将mdptoolbox文件夹加入到这个目录下,即可运行。比如,想在代码里导入工具包mdptoolbox。工具包是多个.py函数,如下图。会返回一个当前的工作目录。

2024-02-19 20:11:05 967 1

原创 jupyter notebook|增加代码自动补全

3. 输入:jupyter contrib nbextension install --user --skip-running-check。4. 打开 jupyter notebook 点击Nbextensions,将disable...前面蓝色的方格取消勾选。2. 输入:pip install jupyter_contrib_nbextensions。1.打开Anaconda Prompt。5. 勾选 Hinterland。

2024-02-19 19:57:35 1014 1

原创 【ros】gmaping环境配置

Q1:无法定位软件包--暂时是把后面的包删了

2022-03-16 23:57:05 118

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除