JIANG Li-CSDN博客

转载 Sarsa和q-learning的区别

今天看到一道强化学习面试题目，才知道即使自己学了这么多理论，但是肯定是学的倒懂不懂的状态，记录以下。文章目录伪代码介绍主要区别区别详解图解伪代码介绍Q-learning: off policySarsa: on policy主要区别Q-learning: off policy, Sarsa: on policy其实主要区别是他们两个更新Q_table的方式：Q-Learning:Q(St,At)←Q(St,At)+α[Rt+1+γmax⁡aQ(St+1,a)−Q(St,At)].

2021-03-11 20:28:59 311

原创保存conda的虚拟环境到docker hub

由于自己最近mentor要求保存conda环境到docker hub，以下记录自己的踩坑过程和部署过程。Docker 安装和使用此部分主要参考Docker官方文档：https://docs.docker.com/engine/install/ubuntu/Ubuntu Docker安装bug: Get Permission Denied原因摘自docker mannual上的一段话Manage Docker as a non-root userThe docker daemon bin.

2021-03-11 00:37:48 1415 1

原创数据问题

多重共线性（Multicollinearity)有什么问题？从LR的角度回答从统计学角度回答（方差）如何解决(2种办法)？为什么树模型不强调多重共线性？为什么要去除共线性？

2021-01-16 16:37:50 111

转载 Linux基本操作

Ubuntu的图形界面使用起来非常方便，但是要想对Linux熟练掌握，就必须学会它的操作命令。虽然可能会花费一些时间，不过从长远的角度来说，这的确是一件事半功倍的事情，它会让我们更了解Linux，更灵活地去使用Linux。 Ubuntu提供了很多命令，不过在本章中不做全部介绍，只是先介绍一些常用命令，其他则分散到各个章节中。初学Linux一定要特别注意，学习命令并不意味着要掌握全部命令和每个命令的全部选项，这并不...

2021-01-16 09:14:38 284

转载 torch.max， torch.gather

引用自：https://blog.csdn.net/Z_lbj/article/details/79766690torch.max(input) → Tensor返回输入tensor中所有元素的最大值a = torch.randn(1, 3)>>0.4729 -0.2266 -0.2085 torch.max(a)>>0.4729 torch.max(input, dim, keepdim=False, out=None) -> (Tensor, Lon.

2021-01-14 09:49:15 174

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

转载 Sarsa和q-learning的区别

原创 保存conda的虚拟环境到docker hub

原创 数据问题

转载 Linux基本操作

转载 torch.max， torch.gather

空空如也

空空如也

原创保存conda的虚拟环境到docker hub

原创数据问题