- 博客(9)
- 资源 (2)
- 收藏
- 关注
原创 强化学习——策略优化(笔记)
本文将会讨论策略优化的数学基础,并且会附上简单的实践代码。三个要点一个简单的等式,将策略梯度跟策略模型参数连接起来一条规则,允许我们将无用的项从等式里去掉另一条规则,允许我们在等式中添加有用的项推导最简单的策略梯度在这里,我们考虑随机参数化策略的情况πθ\pi _ {\theta}πθ。我们的目标是使预期收益J(πθ)=Eτ∼πθ[R(τ)]J(\pi _ {\theta})= \...
2020-01-31 18:12:05 3452
原创 【强化学习】你应该理解的一些关键概念
强化学习是一种机器学习方法,用于指导agents如何通过反复试验来更好地完成任务,深度强化学习指的是传统的强化学习方法与深度学习(神经网络)相结合的产物。OpenAI提供给我们很多有用的资源,包括:对强化学习相关专业术语,各种算法以及基本理论的介绍一些参与强化学习研究的建议整理了相关主题的学术论文齐全的代码库一些供我们参考的实例安装openai提供的这套教程需要我们先安装pyt...
2020-01-30 17:28:29 10383 1
原创 windows下安装强化学习开源库 tf2rl
一、TF2RL介绍TF2RL是一个深度强化学习库,它使用TensorFlow 2.0实现了各种深度强化学习算法。算法离散行为连续行为分类VPG✔✔Model-free On-policy RLDQN (including DDQN, Prior. DQN, Duel. DQN, Distrib. DQN, Noisy DQN)✔✘Model-free ...
2020-01-26 19:03:08 1545
原创 【四足机器人】强化学习实现minitaur运动控制(仿真环境篇)
仿真环境建立4、现实差由于现实的差距,在仿真中学习的机器人控制器在现实环境中往往表现不佳。我们提出两种方法来缩小差距:提高仿真逼真度和学习鲁棒控制器。4.1 提高仿真度前提首先为minitaur机器人创建一个精确的urdf文件用于仿真,假设每个部件的密度是均匀的,根据每个连杆的形状和质量来估计它的惯量。4.1.1执行器模型用位置控制来驱动电机,添加约束en+1=0,即当前时间的误差为...
2020-01-24 22:30:04 4844 2
原创 【四足机器人】强化学习实现minitaur运动控制(决策模型篇)
模型概要1、状态、决策空间(略)状态空间:roll(X轴)、pitch(Y轴),以及沿这两个轴的角速度,8个电机角度2、奖励函数r=(pn−pn−1⋅d−ωΔt∣τn⋅qn∣)(1)r = (p_n-p_{n-1}\cdot d - \omega \Delta t \begin{vmatrix} \tau _n \cdot q_n \end{vmatrix}) \tag{1}r=(pn...
2020-01-24 22:29:25 2515 2
原创 【四足机器人】强化学习实现minitaur运动控制(介绍篇)
某些不太明确以及省略了的地方后续会进行补充相关代码也会补上不过也有可能新开一章,各位将就着看哈硬件结构(略)# 运动控制器1、状态、决策空间状态空间:roll(X轴)、pitch(Y轴),以及沿这两个轴的角速度,8个电机角度2、奖励函数r=(pn−pn−1⋅d−ωΔt∣τn⋅qn∣)(1)r = (p_n-p_{n-1}\cdot d - \omega \Delta t \...
2020-01-21 13:16:08 4759 1
原创 【tensorflow2.0】fashion mnist 数据集训练
目标教程基于tensorflow2.0进行编写建立一个对图像进行分类的神经网络。训练此神经网络。最后,评估模型的准确性。代码
2020-01-06 16:12:17 966 1
原创 【机器学习】svm应用(代码)
一、什么是svm支持向量机(Support Vector Machine, SVM)是一类按监督学习(supervised learning)方式对数据进行二元分类的广义线性分类器(generalized linear classifier),其决策边界是对学习样本求解最大边距超平面(maximum-margin hyperplane) 。1、支持向量与超平面在了解svm算法之前,我们首先需...
2020-01-01 21:33:50 982
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人