科大一小僧

生命满希望,前路由我创

Continuous control with Deep Reinforcement Learning

来源:ICLR2016 作者:Deepmind 创新点:将Deep Q-Learning应用到连续动作领域continuous control(比如机器人控制) 实验成果:能够鲁棒地解决20个仿真的物理控制任务,包含机器人的操作,运动,开车。。。效果比肩传统的规划方法。 优...

2017-12-26 11:39:35

阅读数 416

评论数 0

深度强化学习——连续动作控制DDPG、NAF

传统的DQN只适用于离散动作控制,而DDPG和NAF是深度强化学习在连续动作控制上的拓展。 一、存在的问题DQN是一个面向离散控制的算法,即输出的动作是离散的。对应到Atari 游戏中,只需要几个离散的键盘或手柄按键进行控制。然而在实际中,控制问题则是连续的,高维的,比如一个具有6个关节的机械臂,...

2017-12-26 11:21:20

阅读数 1781

评论数 0

UR5机械臂--ROS系统通信建立与实时控制

实验室近期购置了一台UR5机械臂,需要给机械臂上ROS系统。于是查询各种资料、博客,以及翻墙到谷歌找到了一些资料。花了足足一个月时间终于在ROS系统上与UR5本体建立通信,并在RVIZ上控制UR5,记录安装调试过程以备后续任务。 1.首先说下配置:Ubuntu14.04+ROS indigo 2....

2017-12-26 11:15:57

阅读数 2958

评论数 1

Ubuntu全盘备份与恢复,亲自总结,实测可靠

Ubuntu系统全盘备份与恢复,亲自总结,实测可靠初学者在使用Ubuntu这类Linux操作系统时,常常会由于不当操作导致系统崩溃,重装系统是难免的事情。重装系统虽然简单,但是各种软件/环境重新下载、配置相当占用时间,因此有必要对系统同进行备份,以避免将来连哭的地方都找不到。本教程已经由JK小僧在...

2017-10-13 16:25:28

阅读数 24566

评论数 10

Qt快速入门

简介Qt Creator是使用Qt开发的IDE。Qt支持Windows、Linux/Unix、Mac OS X、Android、BlackBerry、QNX等多种平台,Qt Creator为不同平台提供了统一的开发环境。Qt Creator集成了Qt Designer、Qt Assistant、H...

2017-10-07 20:42:29

阅读数 11268

评论数 1

David Silver《Reinforcement Learning》课程解读—— Lecture 5: Model-Free Control

David Silver《Reinforcement Learning》课程解读—— Lecture 5: Model-Free Control上次课谈到了在给定policy的情况下求解未知environment的MDP问题,称之为Model-Free Prediction问题。本节则是解决未知p...

2017-09-08 08:54:41

阅读数 838

评论数 0

David Silver《Reinforcement Learning》课程解读—— Lecture 4: Model-Free Prediction

David Silver《Reinforcement Learning》课程解读—— Lecture 4: Model-Free PredictionDP动态规划能够解决已知environment的MDP问题,即已知S,A,P,R,γ S,A,P,R,γ,根据是否已知policy又将问题划分为pr...

2017-06-22 10:35:12

阅读数 598

评论数 2

C++程序设计学习笔记

最近在学习北大《C++程序设计》这门公开课,重新复习C++编程知识。笔记记录在了gitbook上,有兴趣的同学可以点击 北大C++程序设计 学习笔记 进行访问。 Thanks!

2017-06-13 23:47:12

阅读数 247

评论数 0

David Silver《Reinforcement Learning》课程解读—— Lecture 3: Planning by Dynamic Programming

David Silver《Reinforcement Learning》课程解读—— Lecture 3: Planning by Dynamic ProgrammingDP用来解决MDPs的planning问题,主要解决途径有policy iteration和value iteration。目录...

2017-06-07 01:25:07

阅读数 1292

评论数 0

机器学习的明天——迁移学习

浅谈迁移学习——机器学习的明天         上个月,柯洁大战AlphaGo落下帷幕,19岁的男孩少有地在比赛中落泪,赛后他为我们留下一句话,柯洁说“AlphaGo”看上去像神一样的存在,好像他是无懈可击的···         的确,DeepMind创造的AlphaGo让人为之赞叹,让柯洁...

2017-06-02 23:32:22

阅读数 8268

评论数 0

David Silver《Reinforcement Learning》课程解读—— Lecture 2: Markov Decision Process

David Silver《Reinforcement Learning》课程解读 Section 2Lecture 2: Markov Decision ProcessMDPs正式描述了强化学习的环境,几乎所有的强化学习问题都可以描述为MDPs。1. Markov Process 用于描述RL的环...

2017-06-02 08:13:29

阅读数 2096

评论数 0

利用moveit在ROS RViz下仿真控制UR机械臂

利用moveit在ROS RViz下仿真控制UR机械臂        上一篇博客介绍了UR5机械臂仿真环境的搭建,接下来讲介绍一下如何利用ROS官方提供的moveit包在RViz控制UR5运动,以及RViz界面的几个主要功能介绍。        首先,让我们先了解一下UR5的RViz控制界面: ...

2017-06-01 20:32:24

阅读数 9830

评论数 1

浅谈GAN生成对抗网络

浅谈GAN——生成对抗网络 重要引用:深度学习新星:GAN的基本原理、应用和走向 | 硬创公开课;生成对抗网络(GAN)相比传统训练方法有什么优势?;通过拳击学习生成对抗网络(GAN)的基本原理 最近总是听老板提起对抗学习,好奇之心,在网上搜集了一些相关资料,整理如下,大部分摘自重要引用的内容。 ...

2017-06-01 10:58:29

阅读数 9670

评论数 1

机器学习的分类与主要算法对比

机器学习的分类与主要算法对比重要引用:Andrew Ng Courera Machine Learning;从机器学习谈起;关于机器学习的讨论;机器学习常见算法分类汇总;LeNet Homepage;pluskid svm  首先让我们瞻仰一下当今机器学习领域的执牛耳者:  这幅图上的三人是当今机...

2017-05-31 23:22:21

阅读数 34483

评论数 10

UR5机械臂仿真环境搭建

UR5机械臂仿真环境搭建 重要参考: ROS官网教程 前段时间,实验室采购了一台UR5机械臂,今天花了一下午,对照官网教程,完成了仿真环境搭建,期间遇到了一些问题,好在最后都解决了。机械臂的运动规划和运动控制是一个很火的内容,同时也可以作为很多人工智能算法验证的实验平台,由于发现这一块国内网站的相...

2017-05-31 19:41:44

阅读数 6504

评论数 5

David Silver《Reinforcement Learning》课程解读—— Lecture 1: Introduction to Reinforcement Learning

David Silver《Reinforcement Learning》课程解读前段时间学习了UCL讲师、AlphaGo项目的主程序员David Silver的课程Reinforcement Learning,手写了30多页学习笔记,可以说学得很浅,整个知识网络掌握得不够有连贯性,为了将整个课程的...

2017-05-30 19:53:24

阅读数 3738

评论数 3

MATLAB矩阵元素的提取和替换

1. 提取1 . 单个元素的提取a=[1,2,3;3,4,5]a = 1 2 3 3 4 5b=a(1,2)b = 2 2 . 提取矩阵中某一行的元素a=[1,2,3;3,4,5],运行后:a = 1 2 3 ...

2017-05-17 10:48:53

阅读数 30898

评论数 0

MATLAB数组元素引用的三种方法

1. Matlab中数组元素引用有三种方法: - 下标法(subscripts) - 索引法(index) - 布尔法(Boolean) - Markdown和扩展Markdown简洁的语法 - 代码块高亮 - 图片链接和图片上传 - LaTex...

2017-05-17 10:26:33

阅读数 17882

评论数 2

MATALB中数组、矩阵、向量、行列式的关系

MATALB中数组、矩阵、向量、行列式的关系正如matlab(矩阵实验室)这个名字一样,matlab的数据结构只有数组(array)一种形式: 单个的数就是1*1的矩阵 向量(vector):特指1*n或n*1的数组,前者称为行向量,后者称为列向量 矩阵(matrix):一般特指二维数组,其它与数...

2017-05-17 00:08:26

阅读数 840

评论数 0

Word将图片格式大小设置成一样大小

Word图片大小归一

2017-05-09 10:54:52

阅读数 2106

评论数 0

提示
确定要删除当前文章?
取消 删除
关闭
关闭