Demian_Neit-CSDN博客

原创 NVIDIA 驱动版本 cuDNN CUDA Tensorflow四者之间的版本的对应问题

１、NVIDIA 驱动版本与CUDA版本之间的对应：https://docs.nvidia.com/cuda/cuda-toolkit-release-notes/index.htmlTable 1. CUDA Toolkit and Compatible Driver Versions CUDA Toolkit Linux x86_64 Driver Version Win...

2019-04-19 22:05:53 2759

原创在window10下安装Ubuntu（Window system for Linux）【WSL绕坑安装ROS】

在电脑上装个Ubuntu单系统真的坑太多（就算双系统，来回切换，硬盘分区啥的也很烦），一个人有多爱Ubuntu，就重装过多少次系统。所以在此感谢伟大的Microsoft，整了个WSL，Windows System for Linux，光说它能够同时运行window和Linux这一点就很牛逼，就相当于把Linux做成一个APP了，可能有很多坑，但是我相信总会有解决的办法。现在要在window...

2019-03-11 10:06:28 3885 5

原创 Unsupervised Perceptual Rewards for Imitation Learning 论文简析

《Unsupervised Perceptual Rewards for Imitation Learning》1、摘要论文要点：（1）用视觉感知信息来将示范动作分解成一定的setp; (2) 使用Intention Network 来预训练 ImageNet，得到视觉特征表示（文中说这类网络训练的图像特征有很好的迁移性）；（3）实践证明由预训练得到的视觉特征可以直接用来...

2019-03-07 10:09:00 530

转载 imitation learning 前沿论文

1 前言在上一篇文章最前沿：机器人学习Robot Learning的发展 - 知乎专栏中，我们介绍了机器人学习Robot Learning这个方向的发展趋势，并介绍了部分基于DRL的方法，那么在本文，我们将继续介绍一下最近发展起来的机器人学习的一个重要分支------模仿学习Imitation Learning。通过深度增强学习Deep Reinforcement Learning，我们可以...

2019-03-06 20:28:04 2202

原创 Reinforcement and Imitation Learning for Diverse Visuomotor Skills 论文简析

《Reinforcement and Imitation Learning for Diverse Visuomotor Skills》27.may.20181、摘要我们提出了一种无模型深度强化学习方法，该方法利用少量演示数据来帮助强化学习代理。我们将此方法应用于机器人操作任务，并训练直接从RGB摄像机输入映射到关节速度的端到端视觉运动策略。我们证明了我们的方法可以解决各种各样的视觉运...

2019-03-04 17:02:59 706 1

原创 Generative Adversarial Imitation Learning 论文简析

《Generative Adversarial Imitation Learning》20161、几个概念：（1） occupancy measure ρπ(s,a)：（2）cost function C(s,a), π策略下的累计回报：（3）causal entropy:(4) 学徒学习公式（5）用RTPO来进行策略更新，保证每个...

2019-03-04 15:05:40 1387

翻译 Meta-Learning 论文

Meta Learning/ Learning to Learn/ One Shot Learning/ Lifelong Learning转自github: https://github.com/floodsung/Meta-Learning-Papers1 Legacy Papers[1] Nicolas Schweighofer and Kenji Doya. Met...

2018-11-24 09:56:03 3049

原创 GAIL 论文翻译

Generative Adversial Imitation learningAbstract考虑从示例专家行为中学习策略，而不进行交互或者与专家或访问增强学习的信号。一种方法是恢复专家的成本函数与逆强化学习，然后从具有强化学习的成本函数提取policy。这种方法是间接的并且可能很慢。我们提出了一个新的通用框架来直接提取一个来自数据的policy，来逼近是通过反向强化学习获得的强化学...

2018-11-23 21:26:10 1325

原创 learning a driving simulator

Learning A Driving Simulator(简单的借助谷歌翻译一下，深入研究可参考原文或源码)Abstractcomma.ai的自动驾驶汽车人工智能方法1基于通过模拟学习克隆驾驶员行为和计划机动的代理人未来的事件在路上。本文阐述了我们的一种研究方法用于驾驶模拟。我们学习模拟的地方。在这里我们调查变量具有经典和学习成本函数的使用生成的自动编码器用于嵌入道路框架的对抗性...

2018-11-23 21:17:49 645

原创梳理确定性策略梯度，随机策略梯度，AC，DPG，DDPG之间的联系

1、随机策略1.1 随机策略公式为：这里的P是一个概率函数，就是说，在给定状态和参数的情况下，输出的的动作服从一个概率分布，也就意味着每次走进这个状态的时候，输出的动作可能不同。1.2 随机策略梯度公式为：表明，策略梯度公式是关于状态和动作的期望，在求期望时，需要对状态分布和动作分布进行求积分。这就要求在状态空间和动作空间采集大量的样本，这样求均值才能近似期望。...

2018-11-08 16:52:01 9192 3

原创在ROS中兼容Python3和Python2

1. 安装相应的Package需要安装catkin-tools和rospkg。# 没有创建virtualenv的话，注意需要使用pip3pip install catkin-toolspip install rospkg2. 按正常方式创建ROS Packgae记得要在python node的文件头部加上shebang，否则rosrun仍会调用python2：#!/us...

2018-08-10 15:08:13 8316 5

原创 catkin_make ROS kinetic 包的package.xml文件

kinetic 版本的ROS需要在ROSwiki上http://wiki.ros.org/catkin/Tutorials/CreatingPackage 中提供的package.xml文件作已下标红部分修改：<?xml version="1.0"?><package format="2"> <name>finalproject</na...

2018-08-07 16:03:25 353

转载创建catkin工作空间时，catkin_make 出错

这些操作方法只适用于ROS Groovy及后期版本，对于ROS Fuerte及早期版本请选择rosbuild。下面我们开始创建一个catkin 工作空间： $ mkdir -p ~/catkin_ws/src$ cd ~/catkin_ws/src即使这个工作空间是空的（在'src'目录中没有任何软件包，只有一个CMakeLists.txt链接文件），你依然可以编译它：...

2018-08-06 20:52:25 7094

原创 ros publish node by python/用Python编写一个简单的ROS消息发布节点

以下是talker.py脚本内容,功能是发布一个名为talker的节点（node）到名为chatter话题（topic）上： 1 #!/usr/bin/env python 2 # license removed for brevity 3 import rospy 4 from std_msgs.msg import String 5 6 def tal...

2018-08-06 20:31:35 2694