- 博客(5)
- 收藏
- 关注
转载 Sarsa和q-learning的区别
今天看到一道强化学习面试题目,才知道即使自己学了这么多理论,但是肯定是学的倒懂不懂的状态,记录以下。文章目录伪代码介绍主要区别区别详解图解伪代码介绍Q-learning: off policySarsa: on policy主要区别Q-learning: off policy, Sarsa: on policy其实主要区别是他们两个更新Q_table的方式:Q-Learning:Q(St,At)←Q(St,At)+α[Rt+1+γmaxaQ(St+1,a)−Q(St,At)].
2021-03-11 20:28:59
311
原创 保存conda的虚拟环境到docker hub
由于自己最近mentor要求保存conda环境到docker hub,以下记录自己的踩坑过程和部署过程。Docker 安装和使用此部分主要参考Docker官方文档:https://docs.docker.com/engine/install/ubuntu/Ubuntu Docker安装bug: Get Permission Denied原因摘自docker mannual上的一段话Manage Docker as a non-root userThe docker daemon bin.
2021-03-11 00:37:48
1415
1
原创 数据问题
多重共线性(Multicollinearity)有什么问题?从LR的角度回答从统计学角度回答(方差)如何解决(2种办法)?为什么树模型不强调多重共线性?为什么要去除共线性?
2021-01-16 16:37:50
111
转载 Linux基本操作
Ubuntu的图形界面使用起来非常方便,但是要想对Linux熟练掌握,就必须学会它的操作命令。虽然可能会花费一些时间,不过从长远的角度来说,这的确是一件事半功倍的事情,它会让我们更了解Linux,更灵活地去使用Linux。 Ubuntu提供了很多命令,不过在本章中不做全部介绍,只是先介绍一些常用命令,其他则分散到各个章节中。初学Linux一定要特别注意,学习命令并不意味着要掌握全部命令和每个命令的全部选项,这并不...
2021-01-16 09:14:38
284
转载 torch.max, torch.gather
引用自:https://blog.csdn.net/Z_lbj/article/details/79766690torch.max(input) → Tensor返回输入tensor中所有元素的最大值a = torch.randn(1, 3)>>0.4729 -0.2266 -0.2085 torch.max(a)>>0.4729 torch.max(input, dim, keepdim=False, out=None) -> (Tensor, Lon.
2021-01-14 09:49:15
174
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人