- 博客(12)
- 收藏
- 关注
原创 OPE| importance sampling methods: IS,PDIS,WIS,WPDIS,CWPDIS
【代码】OPE| importance sampling methods: IS,PDIS,WIS,WPDIS,CWPDIS。
2024-05-10 01:23:29
406
原创 OPE in RL|强化学习中的离策略评估方法
除了IH,每一种DM 都对应三种HM: standard doubly robust (DR), weighted doubly robust (WDR), and MAGIC。IPS核心思想:通过行为策略和待评估策略的重要性采样比率,将历史数据中的奖励reward重新加权,目的是衡量在行为策略下奖励符合待评估策略的可能性。总的来说,MAGIC+FQE 或者 MAGIC+Q_pi(lamda) 在混合方法里表现最好。每一种DM:MAGIC>WDR>DR,但是MAGIC有多余的超参数要调。
2024-05-06 18:22:55
694
1
原创 tf/encoder|Error合集
pkl文件压缩的pandas和解压缩的pandas必须是同一个版本。用于计算张量tensor沿着指定的数轴(tensor的某一维度)上的的平均值,主要用作降维或者计算tensor(图像)的平均值。axis=0:按照列平均axis=1:按照行平均区分:tf.reduce_mean & np.mean几乎等价,np.mean由中输出参数的类型默认与在负数部分有一个较小的斜率,目的是处理稀疏梯度的情况(sparse gradients),比如在训练生成对抗网络时。
2024-05-05 19:51:07
516
1
原创 RL强化学习基础|Q learning|test on FrozenLake代码小实验
Frozen Lake游戏的设定是有slippery (有滑动,即env.step(action)不一定是指的前面选出来的action,有一定概率是其他的方向)和 not slippery(不滑动,即env.step(action)就是指的前面选出来的action,类似于deterministic policy),图如下,根据小人的状态有不同的情况:(图表示每100个episode的累计奖励)epsilon指的是选择探索的改了吧,大部分时候探索的机会很小。main函数线运行15000 次。
2024-03-02 01:32:44
355
1
原创 【无标题】pessimistic|offline RL notes
悲观主义--通过惩罚penalize epistemic uncertainty,去除eliminate spurious correlation。面临的问题与离线学习完全相反:因为我们可以更多探索;原因:epistemic uncertainty(知识的)---会产生--spurious correlation。比如说:uncertainty比较大,减掉lower confidence bound,选择比较确定的动作;--评估 基于数据的估算 的 不确定性。目标:找个策略--max期望累计奖励。
2024-02-29 19:34:24
423
原创 强化学习|01 马尔可夫决策过程 MDP
【原因1:变量是连续的(continuous),需要用函数表示这些随机变量之间的关系;原因2:其他变量如A动作,R回报,可能也随时间变化,不止只有状态转移】图来自,这位博主写的很好。
2024-02-20 07:27:31
301
1
原创 强化学习sepsis论文复现|02 数据准备:在postgresql本地安装mimic-iii数据集
2.github下载mimic code postgres building的代码。3.下载mimic-iii数据集,这个还需要答题,好麻烦。1.安装postgres。
2024-02-19 22:55:46
438
2
原创 强化学习sepsis论文复现|01 psycopg2库导入失败:ImportError: DLL load failed while importing _psycopg: 找不到指定的模块。
最近复现The artificial intelligence clinician learns optimal treatment strategies for sepsis in intensive care的论文开个贴记录遇到的问题,我用的jupyter notebook。
2024-02-19 21:34:24
2010
1
原创 jupyter notebook|如何导入.py的工具包文件
2.将mdptoolbox文件夹加入到这个目录下,即可运行。比如,想在代码里导入工具包mdptoolbox。工具包是多个.py函数,如下图。会返回一个当前的工作目录。
2024-02-19 20:11:05
967
1
原创 jupyter notebook|增加代码自动补全
3. 输入:jupyter contrib nbextension install --user --skip-running-check。4. 打开 jupyter notebook 点击Nbextensions,将disable...前面蓝色的方格取消勾选。2. 输入:pip install jupyter_contrib_nbextensions。1.打开Anaconda Prompt。5. 勾选 Hinterland。
2024-02-19 19:57:35
1014
1
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人