Sparks Fly ~-CSDN博客

原创 OPE| importance sampling methods: IS,PDIS,WIS,WPDIS,CWPDIS

【代码】OPE| importance sampling methods: IS,PDIS,WIS,WPDIS,CWPDIS。

2024-05-10 01:23:29 406

原创 OPE in RL|强化学习中的离策略评估方法

除了IH，每一种DM 都对应三种HM： standard doubly robust (DR), weighted doubly robust (WDR), and MAGIC。IPS核心思想：通过行为策略和待评估策略的重要性采样比率，将历史数据中的奖励reward重新加权，目的是衡量在行为策略下奖励符合待评估策略的可能性。总的来说，MAGIC+FQE 或者 MAGIC+Q_pi(lamda) 在混合方法里表现最好。每一种DM：MAGIC>WDR>DR,但是MAGIC有多余的超参数要调。

2024-05-06 18:22:55 694 1

原创 tf/encoder|Error合集

pkl文件压缩的pandas和解压缩的pandas必须是同一个版本。用于计算张量tensor沿着指定的数轴（tensor的某一维度）上的的平均值，主要用作降维或者计算tensor（图像）的平均值。axis=0：按照列平均axis=1：按照行平均区分：tf.reduce_mean & np.mean几乎等价，np.mean由中输出参数的类型默认与在负数部分有一个较小的斜率，目的是处理稀疏梯度的情况（sparse gradients）,比如在训练生成对抗网络时。

2024-05-05 19:51:07 516 1

原创 RL强化学习基础|Q learning|test on FrozenLake代码小实验

Frozen Lake游戏的设定是有slippery （有滑动，即env.step(action)不一定是指的前面选出来的action，有一定概率是其他的方向）和 not slippery（不滑动，即env.step(action)就是指的前面选出来的action，类似于deterministic policy），图如下，根据小人的状态有不同的情况：（图表示每100个episode的累计奖励）epsilon指的是选择探索的改了吧，大部分时候探索的机会很小。main函数线运行15000 次。

2024-03-02 01:32:44 355 1

原创【无标题】pessimistic|offline RL notes

悲观主义--通过惩罚penalize epistemic uncertainty，去除eliminate spurious correlation。面临的问题与离线学习完全相反：因为我们可以更多探索；原因：epistemic uncertainty（知识的）---会产生--spurious correlation。比如说：uncertainty比较大，减掉lower confidence bound，选择比较确定的动作；--评估基于数据的估算的不确定性。目标：找个策略--max期望累计奖励。

2024-02-29 19:34:24 423

原创强化学习|01 马尔可夫决策过程 MDP

【原因1：变量是连续的（continuous），需要用函数表示这些随机变量之间的关系；原因2：其他变量如A动作,R回报，可能也随时间变化，不止只有状态转移】图来自，这位博主写的很好。

2024-02-20 07:27:31 301 1

原创 python pickle

序列化和反序列化（serializing and deserializing）对象结构。

2024-02-20 07:01:28 120 1

原创强化学习sepsis论文复现|02 数据准备：在postgresql本地安装mimic-iii数据集

2.github下载mimic code postgres building的代码。3.下载mimic-iii数据集，这个还需要答题，好麻烦。1.安装postgres。

2024-02-19 22:55:46 438 2

原创强化学习sepsis论文复现|01 psycopg2库导入失败：ImportError: DLL load failed while importing _psycopg: 找不到指定的模块。

最近复现The artificial intelligence clinician learns optimal treatment strategies for sepsis in intensive care的论文开个贴记录遇到的问题，我用的jupyter notebook。

2024-02-19 21:34:24 2010 1

原创 jupyter notebook|如何导入.py的工具包文件

2.将mdptoolbox文件夹加入到这个目录下，即可运行。比如，想在代码里导入工具包mdptoolbox。工具包是多个.py函数，如下图。会返回一个当前的工作目录。

2024-02-19 20:11:05 967 1

原创 jupyter notebook|增加代码自动补全

3. 输入：jupyter contrib nbextension install --user --skip-running-check。4. 打开 jupyter notebook 点击Nbextensions，将disable...前面蓝色的方格取消勾选。2. 输入：pip install jupyter_contrib_nbextensions。1.打开Anaconda Prompt。5. 勾选 Hinterland。

2024-02-19 19:57:35 1014 1