花_哥-CSDN博客

原创 Embodied AI论文推荐

我们对Markdown编辑器进行了一些功能拓展与语法支持，除了标准的Markdown编辑器功能，我们增加了如下几点新功能，帮助你用它写博客：撤销：Ctrl/Command + Z重做：Ctrl/Command + Y加粗：Ctrl/Command + B斜体：Ctrl/Command + I标题：Ctrl/Command + Shift + H无序列表：Ctrl/Command + Shift + U有序列表：Ctrl/Command + Shift + O检查列表：Ctrl/Command

2023-12-20 22:49:18 1073

原创 pybullet入门第一节

pybullet第一节学习pybullet的安装首先安装pybullet，非常简单直接pip即可。在一台可渲染的ubuntu电脑食用更佳～因为本人没有遇到什么安装上的问题，故就不再这里细说。安装完成pybullet之后，可以通过跑一些其提供的demo进行渲染。如直接运行：python -m pybullet_envs.examples.loadpanda即可看到一个机械臂在进行manipulation：安装完成后可以看到pybullet提供了些什么：这4种文件里面包含了各种各样现成的模

2022-04-19 23:11:57 3784 1

转载 Ubuntu安装Times NewRoman字体

可以参考该博客，完美解决：https://blog.csdn.net/u014712482/article/details/80568540其他blog的sudo装发都或多或少有点问题

2022-03-22 12:53:25 2294

原创如何手写softmax函数防止数值溢出？

当我手写cross-entropy的时候，发现有时候竟然会出现error？整个数学计算过程没问题，主要问题就在于上溢出和下溢出，即当遇到极大或是极小的logits的时候，如果直接用公式按照exp的方式去进行softmax的话就会出现数值溢出的情况。为了解决这个问题，首先需要做的就是减去最大值，即：logits = logits - torch.max(logits, 1)[0][:, None]原理可以看这个链接：https://zhuanlan.zhihu.com/p/29376573但是我减去

2022-03-04 19:58:36 1245

原创 pytorch optimizer使用注意事项

.step()函数只会对该优化器指定的参数进行更新；zero_grad()函数也只会对当前优化器指定的参数进行梯度清零；.step()函数并不会将梯度清空；.forward()函数会建立动态图，但一旦backward()后就会将图清空，故对于同一批数据不能连续使用两次.backward()；但如果想得到多批数据的反向传播的梯度，并使用这些梯度一起做梯度更新，则需要多批数据分别输入后，分别做backward()；最后等backward()结束之后，再一起执行.step()函数，就可以将之前多次计算的梯.

2022-02-27 12:09:29 774

原创正确配置dm_control with mujoco-2.1.1

我在配置dm_control时也踩了不少坑，下面我用正确的方式来给大家如何正确安装并使用mujoco-2.1.1下的dm_control首先需要去下载mujoco-2.1.1，先不下载mujoco的话将无法正常运行dm-control！wget https://github.com/deepmind/mujoco/releases/download/2.1.1/mujoco-2.1.1-linux-x86_64.tar.gztar -xf mujoco-2.1.1-linux-x86_64.tar.g

2022-02-25 14:09:22 3594 1

原创一套教你LATEX绘制并列图表

在我们排版的很多时候，你是否因单图或者单表占用了大量空间而感到头疼。下面介绍如何绘制出并列的图表：不论何种形式，总之都可以采用minipage来进行实现，同时配合前面的声明来完成表和图的并列且带有各自类别的caption的排版。图表各一个caption：\makeatletter\newcommand\tabcaption{\def\@captype{table}\caption}\newcommand\figcaption{\def\@captype{figure}\caption}\mak

2022-02-19 20:44:52 2152 1

原创通过vscode使用指定的私钥进行远程服务器登陆

之前路径怎么输都不对，但采用以下路径格式即可：Host 你的服务器ip HostName 还是你的服务器ip User 你的用户名 IdentityFile ~/.ssh/私钥名 Port 端口之前我的IndentityFile一直显示有问题连不上，但是路径改成~/.ssh/私钥名就可以了。在终端可以采用以下方式进行登陆：ssh -i 私钥名 -p 端口号你的用户名@你的服务器ip...

2022-02-17 17:15:15 1096

原创 RL夏令营第二讲回顾--policy methods

policy methods目标函数策略评价策略优化贝尔曼方程：用来衡量一个policy的好坏程度Policy Approaches马尔可夫链Policy MethodsREINFORCE算法目标函数agent会选择一种policy来最大化下面三种可能的目标函数：总奖励的期望J(π):=E[∑k=0NR(sk,π(sk))]J(\pi):=\mathbb{E}\left[\sum_{k=0}^{N} R\left(s_{k}, \pi\left(s_{k}\right)\right)\right

2021-01-18 16:30:26 182

原创 6、强化学习--策略梯度

策略梯度简介基于价值和基于策略的强化学习policy based方法的优缺点基于价值函数的策略有时无法得到最优策略策略目标函数三种形式的策略目标函数优化目标函数有限差分策略梯度策略梯度有限差分法计算策略梯度蒙特卡洛策略梯度softmax 策略高斯策略策略梯度定理蒙特卡洛策略梯度定理Actor-Critic 策略梯度定理兼容近似函数 Compatible Function Approximation...

2021-01-18 16:26:37 3739

原创 RL夏令营第4讲回顾--Model-based

Model-based方法Model-based和Model-free方法对比Model-based方法流程Q-planning算法Dyna-Q算法Model-Based方法存在的问题Model-based和Model-free方法对比Model-based：一旦model学好后，就是采用On-Policy的算法；一旦model学好后，就不需要与真实环境有过多地互动；会比Model-free方法有更高地采样效率；模型如果有问题的话，会产生比较大地误差。Model-free：拥有最好地表

2020-09-13 11:20:28 363

原创 RL夏令营第一讲回顾--强化学习介绍和Value-Based方法

RL夏令营第一讲回顾--强化学习介绍和Value-Based方法动态规划策略评价（Policy Evaluation）策略提升（Policy Improvement）策略迭代价值迭代model free的方法Off-Poicy Learning重要性采样Q-learning有关Cliff Walking的思考Value Function ApproximationDQNDQN存在的问题Double DQN解决DQN的问题Dueling DQNPrioritized Experience ReplayDDPG

2020-09-07 09:48:46 642

原创跟张博士读RL论文---DQN(ICML版本)

跟张博士读RL论文---DQN摘要介绍背景深度强化学习原文链接：Mnih, Volodymyr, et al. “Human-level control through deep reinforcement learning.” (2015). (ICML版本)摘要本文提出了第一个利用强化学习模型(一个CNN)来学习高维感官输入从而在游戏上达到并超过人类水平。介绍深度学习在视觉和语音辨识上有了出色成果，但是强化学习还没有。强化学习没有大量标示的训练集。强化学习算法都是通过稀疏，含有噪声，有延迟的

2020-07-08 10:55:47 225

原创超详细！XGBoost原理介绍

XGBoost梯度提升树提升集成算法参数:n-estimators参数subsample参数：eta(η\etaη)梯度提升算法总结XGBoostXGBoost的目标函数求解XGB的目标函数参数化决策树ft(x)f_t(x)ft(x)寻找最佳树结构：www和TTT寻找最佳分枝方法：Gain重要参数γ\gammaγXGBoost是现在最流行的三大GBDT模型中，最早的一个，后两个都是在XGBoo...

2020-07-05 10:07:33 3555

原创 5、强化学习--价值函数的近似表示

价值函数的近似表示近似价值函数 Value Function Approximation递增方法(Incremental Methods)梯度下降预测--递增算法MC应用于状态价值函数近似TD应用于状态价值函数近似TD(λ)应用于状态价值函数近似控制--递增算法收敛性分析批方法 Batch Methods最小二乘法预测批方法应用于DQN最小平方差控制之前的内容都是讲解一些强化学习的基础理论，这些...

2020-04-24 10:14:14 392

原创 4、强化学习--model free 控制

model free控制有模型下的策略迭代Ɛ-贪婪探索(MC-control)GLIE(Greedy in the Limit with Infinite Exploration)TD Controlon-policy TD ControlSARSAn步SARSASARSA(λ\lambdaλ)off-policyimportant samplingTD的off-policy方法Q-learnin...

2020-04-21 22:07:27 529

原创 3、强化学习--model free决策

model free决策介绍蒙特卡洛算法蒙特卡洛的策略评估首次访问蒙特卡洛策略评估每次访问蒙特卡洛策略评估在每次访问完episode后即更新每次访问完episode的更新算法时序差分学习(TD-learning)介绍BootStrappingMC和TD对比例子MC和TD算法之间的比较==MC和TD的收敛性比较==TD(λ\lambdaλ)TD(λ\lambdaλ)的两种理解方式前向理解后向理解介...

2020-04-18 11:23:56 255

原创 2、强化学习--动态规划

动态规划策略评价模型策略迭代关于策略迭代一定能提升表现的证明价值迭代确定性的价值迭代价值迭代的过程价值迭代与策略迭代的区别总结策略迭代的收敛性证明价值迭代的收敛性证明策略评价模型问题：评价一个已知的策略π\piπ解决方法：通过反向迭代贝尔曼期望方程计算过程如下：v1→v2→…→vπv_{1} \rightarrow v_{2} \rightarrow \ldots \rightarro...

2020-04-13 14:49:33 305

原创 1、强化学习---马尔可夫决策过程

马尔可夫决策过程马尔可夫过程马尔可夫奖励过程(MRP)值函数MRP的贝尔曼方程(Bellman equation):迭代算法求MRP的值函数马尔可夫决策过程(MDP)MDP中的PolicyMDP的值函数贝尔曼期望方程马尔可夫过程已知过往的过程为：ht={s1,s2,s3,.....st}h_t = \{s_1,s_2,s_3,.....s_t\}ht={s1,s2,s3,.......

2020-04-11 16:14:29 380

原创 2、动手学深度学习--深度学习基础

深度学习基础线性回归的实现生成数据集读取数据集初始化模型参数定义模型定义损失函数定义优化算法训练模型线性回归的实现本节将介绍如何只利用NDArray和autograd来实现一个线性回归的训练。生成数据集%matplotlib inlinefrom IPython import displayfrom matplotlib import pyplot as pltfrom mxnet ...

2020-04-04 23:14:58 300

原创动手学深度学习---基本操作

动手学深度学习数据操作创建NDArray索引`NDArray`和NumPy相互变换自动求梯度分类的stacking融合数据操作创建NDArrayNDArray和numpy很像，都是一些基础的数据结构。首先要把环境配好，具体配环境的话就不赘述了。1、利用arange函数创建行向量x = nd.arange(12)直接看x是这个样子2、创建各元素为1的张量nd.ones((3,4))...

2020-04-04 22:30:48 544

weixin_42988382的博客