自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(9)
  • 收藏
  • 关注

原创 启动tensorboard

在terminal中进入log所在文件夹的上一级目录 如则 cd tai-1/exp1/runs生成logtensorboard --logdir=./runs如果服务器拒绝连接tensorboard --logdir=./runs --host=127.0.0.1打开http://127.0.0.1:6006/

2022-03-09 19:37:20 877

原创 tmux使用

使用ssh远程连接电脑时,窗口关闭会停止会话,使用nohup或者tmux可以保持会话的运行启动新会话$ tmux new -s <session-name>分离会话$ tmux detach 或按下 Ctrl+b d重新接入会话$ tmux attach -t <session-name>查看tmux会话列表$ tmux ls杀死对话$ tmux kill-session -t <session-name>重命名对话$ tmux rename-s

2022-03-09 19:26:22 87

原创 《A Practical Guide to Multi-Objective Reinforcement Learning and Planning》文章翻译

原文:Hayes, Conor F., et al. “A practical guide to multi-objective reinforcement learning and planning.” arXiv preprint arXiv:2103.09568 (2021).待解决:utility如何翻译合适,文中目前是效用。摘要现实世界的决策任务通常很复杂,经常需要在多个相互冲突的目标之间进行权衡。尽管如此,大多数关于强化学习和决策理论规划方面研究要么只假设一个目标,要么假设多个目标可以通过

2021-11-15 20:25:22 839 1

原创 jupyter notebook修改默认路径

参考 https://zhuanlan.zhihu.com/p/48962153路径记得用双斜杠

2021-06-30 11:26:13 74

原创 PPO理解

PPO原文链接由于TRPO实现起来需要使用二阶近似和共轭梯度,比较复杂,Deepmind又在TRPO的基础上提出了实现较为简单的PPO算法。TRPOTRPO的优化目标为用惩罚项代替约束项后Adaptive KL Penalty CoefficientPPO1为了避免TRPO中超参数β\betaβ的选择,采用自适应确定参数的方法β\betaβ由以下条件确定Clipped Surrogate Objective为了限制更新步长,原文还提出了PPO2,这是默认的PPO算法,因为PPO2的

2021-02-04 11:38:42 717

原创 TRPO理解

原文链接TRPO算法η(π)\eta(\pi)η(π)代表在策略π\piπ下产生一系列的回报函数动作值函数,值函数,优势函数定义如下,这里的优势函数AπA_\piAπ​表示采用某个动作的优劣对于新的策略π~\tilde{\pi}π~,其回报函数可以写为旧策略的回报函数加一个其他项,写作上式证明过程不难,原文可见,首先优势函数可写作因此得证...

2021-02-01 16:03:54 755

原创 pip安装到指定虚拟环境

cmd中切换目录cd C:\Users\11091\Desktop\test\Scriptspip install安装

2020-12-02 21:13:37 4142 1

原创 pip出现ssl warning

在https://slproweb.com/products/Win32OpenSSL.html上下载winopessl的MSI文件解决

2020-07-20 23:05:16 220

原创 Duke:Scientific Writing Resource 学习笔记

课程网址LESSON Ⅰ: SUBJECTS AND ACTIONS1. Put actions in verbs:动词 → 名词如:regulate →regulationAnalyze→ analysisPerform→ performance…当相邻句用同一个动词时,可转化名词避免重复,写完高亮动词排查例1:We analyzed the data. This ana...

2020-04-02 18:11:11 587

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除