2019年03月_Vic_Hao

转载 Python数据序列化和反序列化

前言现实需求每种编程语言都有自己的数据类型，其中面向对象的编成语言还允许开发者自定义数据类型（i.e. 自定义类），Python也是一样。很多时候我们会有这样的需求：把内存中的各种数据类型的数据通过网络传送给其它机器或客户端把内存中的各种数据类型的数据保存到本地磁盘持久化数据格式如果要将一个系统内的数据通过网络传输给其它系统或者客户端，我们通常都需要先把这些数据转化为字符或字符...

2019-03-31 11:31:54 941

转载 Python open()详解

使用流程打开文件，得到文件句柄，并赋值给一个变量通过句柄对文件进行操作关闭文件具体用法open(name, [, mode[, buffering]])参数说明：name: 一个包含了你想要访问的文件名称的字符串值mode: mode决定了打开文件的模式，默认是rbuffering: 如果buffering的值被设为0，就不会有寄存。如果buffering的值取1，访问文...

2019-03-30 22:54:15 1228

原创 Tensorflow学习笔记——Optimizer

目前Tensorflow支持11种不同的经典优化器：tf.train.Optimizertf.train.GradientDescentOptimizertf.train.AdadeltaOptimizertf.train.AdagtadOptimizertf.train.AdagradDAOptimizertf.train.MomentumOptimizertf.train.Ad...

2019-03-29 00:07:48 223

Reference:https://blog.csdn.net/LiQingBB/article/details/83449842https://stackoverflow.com/questions/44912297/are-tf-layers-dense-and-tf-contrib-layers-fully-connected-interchangeablehttps://blog.c...

2019-03-28 17:52:21 2077

转载 Tensorflow学习笔记——tf.nn, tf.layers, tf.contrib综述

tf.nn, tf.layers, tf.contrib模块有很多功能是重复的。下面是对三个模块的综述：tf.nntf.layers主要提供的高层的神经网络，感觉是对tf.nn的进一步封装，tf.nn会更底层一些。tf.contrib开源社区贡献，新功能，内外部测试，根据反馈意见改进性能，改善API友好度，API稳定后，移到TensorFlow核心模块。生产代码，以最新官方教程和API...

2019-03-28 17:25:22 337

转载 ROS TCP通信

Reference:https://blog.csdn.net/deyuzhi/article/details/51725074https://blog.csdn.net/weixin_43795921/article/details/85307133https://github.com/abhinavjain241/comm_tcp

2019-03-28 14:14:07 4233

转载 Protobuf 详解

简介Protobuf全称是Google Protocol Buffer，是一种高效轻便的结构化数据存储方式，可用于（数据）通信协议、数据存储等。也可以理解为结构化数据的序列化方法，可简单类比为XML（这里主要是指在数据通信和数据存储这些应用场景中序列化方面的类比，但个人认为XML作为一种扩展标记语言和Protobuf还是有着本质区别的），其具有以下特点：语言无关，平台无关Protobuf...

2019-03-28 00:26:02 3040

原创 ros 数据类型

message中的float64[]就是vector<double>Reference:https://answers.ros.org/question/307760/unable-to-push_back-float64-custom-msg-in-stdvectorstd_msgsfloat64/

2019-03-26 17:24:21 2404

原创 Neural Network Dynamics for Model-Based Deep Reinforcement Learniing with Model-Free Fine-Tuning

Goal怎样在model-based reinforcement learning中使用neural-network创建的system dynamics怎样使用model-based reinforcement learning来加速model-free reinforcement learningRelated WorkThe most efficient model-based a...

2019-03-26 17:21:17 323

原创 Constructing Hydraulic Robot Models Using Memory-Based Learning

Goalconstruct a complete excavator machine model consists of an actuator model and a linkage dynamicsChallenge and Related WorkContributionpropose a method for constructing hydraulic machine model...

2019-03-25 23:04:04 122

转载 Tensorflow学习笔记——tf.reduce_XXX()系

tf.reduce_sum()可以理解为压缩求和，用于降维。例子：# 'x' is [[1, 1, 1]# [1, 1, 1]]#求和tf.reduce_sum(x) ==> 6#按列求和tf.reduce_sum(x, 0) ==> [2, 2, 2]#按行求和tf.reduce_sum(x, 1) ==> [3, 3]#按照...

2019-03-24 00:49:31 249

转载 Tensorflo学习笔记——tf.one_hot()

one-hot encodingone-hot encoding 一般是在有监督学习中对数据集进行标注时使用的，指的是在分类中，将存在数据类别的那一类用X表示，不存在的用Y表示，这里的X常常是1， Y常常是0。举个例子：比如我们有一个5分类问题，我们有数据(Xi,Yi)(X_{i}, Y_{i})(Xi,Yi)，其中类别YiY_{i}Yi有5种取值，所以如果所以如果YjY_{j}Yj...

2019-03-24 00:29:51 142

转载 numpy数据类转换

查看数据类型In [11]: arr = np.array([1,2,3,4,5]) In [12]: arr Out[12]: array([1, 2, 3, 4, 5]) // 该命令查看数据类型 In [13]: arr.dtype Out[13]: dtype('int64') In [14]: float_arr = arr.astype(np.float64) /...

2019-03-19 22:53:57 861

转载 numpy array索引和切片

一维数组一维数组很简单，基本和列表一致。它们的区别在于数组切片是原始数组视图。（这就意味着，如果做任何修改，原始都会跟着修改。）这也意味着，如果不想更改原始数组，我们需要进行显式的复制，从而得到它的副本。（.copy()）import numpy as nparr = np.arange( 10)arr输出：array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9...

2019-03-19 19:54:27 365

转载 numpy array拼接

Reference:https://blog.csdn.net/m0_37393514/article/details/79538748

2019-03-19 14:14:35 833

转载 Tensorflow学习笔记——initializer（参数初始化）

tf.constant_initializer()也可以简写为tf.Constant()初始化为常数，这个非常有用，通常偏置项就是用它初始化的。由它衍生出两个初始化方法：tf.zero_initializer()，也可以简写为tf.Zeros()tf.ones_initializer()，也可以简写为tf.Ones()示例：在卷积层中，将偏置项b初始化为0，则有多种写法：co...

2019-03-18 22:37:37 2339

原创 Learn from Demonstration

Reference:http://blog.exbot.net/archives/249https://blog.csdn.net/weixin_43822994/article/details/85566552https://zhuanlan.zhihu.com/p/45845001https://blog.csdn.net/c2a2o2/article/details/77336551...

2019-03-18 18:43:07 896

转载 Tensorflow学习笔记——变量作用域（variable scope）

Tensorflow中的变量一般就是模型的参数。当模型复杂的时候共享变量就会变得无比复杂。官网给出过一个case，当创建两层卷积的过滤器时，每输入一个图片就会创建一次过滤器对应的变量，但是我们希望所有图片都共享同一过滤器变量，一共有4个变量：conv1_weights,conv1_biases,conv2_weights, and conv2_biases。通常做法是将这些变量设置为全局变量。...

2019-03-18 00:23:13 1692

转载 Tensorflow学习笔记——collection 详解

tf.add_to_collection(‘list_name’, element)将元素element添加到列表list_name中tf.get_collection(‘list_name’)返回名称为list_name的列表tf.add_n(list)将列表元素相加并返回示例import tensorflow as tftf.add_to_collection('loss...

2019-03-17 18:10:43 922

原创 Tensorflow学习笔记——tf.Variable()和tf.get_variable()

tf.Variable()tf.Variable是一个Variable类通过variable维持图graph的状态，以便在sess.run()中执行，可以用Variable类创建一个实例在图中增加变量tf.Variable(initial_value=None, trainable=True,collections=None,validate_shape=True,caching_...

2019-03-17 17:48:54 287

转载 Tensorflow学习笔记——tf.set_random_seed函数

设置图级随机seed依赖于随机seed的操作实际上从两个seed中获取：图级和操作级seed。这将设置图级别的seed其与操作级seed的相互作用如下：如果没有设置图级和操作级seed，则使用随机seed进行操作。如果设置了图级seed，但操作级seed没有设置：系统确定性的选择与图级seed一起的操作seed，以便获得唯一的随机序列。如果没有设置图级seed，但是设置了操作seed，...

2019-03-17 14:21:39 2946 1

转载强化学习算法—DQN

Q-Learning从Q-Learning到DQN维度灾难在上面的简单分析中，我们使用表格来表示Q(s,a)，但是这个在现实的很多问题上是几乎不可行的，因为状态实在是太多。使用表格的方式根本存不下。举Atari为例子。计算机玩Atari游戏的要求是输入原始图像数据，也就是210x160像素的图片，然后输出几个按键动作。总之就是和人类的要求一样，纯视觉输入，然后让计算机...

2019-03-15 01:17:49 2203

原创 A straight-line motion tracking control of hydraulic excavator system

GoalThe resulting control law has been applied to straight-line motions of a 13 ton hydraulic excavator with a bucket speed of 0.5 m/s, a speed level at which skilful operators work.ChallengeStraig...

2019-03-14 20:30:43 173

原创 python 类的继承

概述继承是指这样一种能力：通过继承创建的新类可以使用现有类的所有功能，并在无需重新编写原来的类的情况下对这些功能进行扩展。继承就是一个从一般到特殊的过程，是面向对象编程（OOP）语言的主要特征。一个子类可以有一个或者多个父类。要实现多继承，可以通过多级继承来实现。OOP开发范式大致为：划分对象—&gt;抽象类—&gt;将类组织成为层次化结构（继承和合成）—&gt;用类和实例进行设计和实现的...

2019-03-10 14:59:04 167

原创 python 字符串操作

Reference:https://www.cnblogs.com/songqingbo/p/5126957.html

2019-03-09 19:53:43 130

原创 Proe转Solidworks

http://help.solidworks.com/2016/chinese-simplified/SolidWorks/sldworks/HIDD_PROE_ASSEM_CONV_OPTION.htm

2019-03-09 15:47:11 2226

原创无偏估计

Reference:https://www.cnblogs.com/notwice/p/8538539.htmlhttps://blog.csdn.net/ccnt_2012/article/details/82715415https://www.matongxue.com/madocs/607.html

2019-03-08 14:26:25 675

原创强化学习算法——TRPO

TRPO(Trust Region Policy Optimization), 置信域策略优化，是Policy Search Methods中的一类随机策略搜索算法，它正面解决了梯度更新步长选择的问题，给出了一种单调的策略改善方法。回顾策略梯度的方法，在策略梯度中我们的更新满足如下关系：θnew=θold+α▽θJ\theta_{new} = \theta_{old} + \alpha \tr...

2019-03-08 14:24:10 1201

原创 Control of a Quadrotor with Reinforcement Learning

GoalControl a quadrotor with a neural network trained using reinforcement learning.Policy network is a function directly mapping a state to rotor thrusts.Related WorkGuided Policy Search with a MP...

2019-03-08 14:23:50 497

原创 Exploration and Apprenticeship Learning in Reinforcement Learning

Goal本文提出apprenticeship learning, in which a teacher demonstration of the task is available。given theinitial demonstration, no explicit exploration is necessary, and we can attain near-optim...

2019-03-07 19:57:10 297

原创 An Application of Reinforcement Learning to Aerovbatic Helicopter Flight

这是早期成功应用RL到robotcis的文章。GoalChallenge自动直升机是一个具有挑战性的控制问题，具有high-dimensional, asymmetric, noisy, nonlinear, non-minimum phase dynamics的特点。Contribution1.Learning a Helicopter Model from Flight DataC...

2019-03-07 15:08:04 114

原创 Direct State-to-Action Mapping for High DOF Robots Using ELM

GoalRelated WorkTo generate a general state-to-action mapping for a high dimensional system, optimizing the mapping using ‘trial and error’ basis has limitations due to the fact that ...

2019-03-07 13:50:55 139

转载基于policy gradient的强化学习算法

基于policy gradient的强化学习算法相比于value function方法的优缺点：优点：直接策略搜索是对策略进行参数化表示，与值函数相比，策略化参数的方法更简单，更容易收敛。值函数的放法无法解决状态空间过大或者不连续的情形直接策略的方法可以采取随机策略，随机策略可以将探索直接集成到算法当中缺点：策略搜索的方法更容易收敛局部极值点在评估单个策略时，评估的并不好，方差...

2019-03-06 22:05:21 520

转载约束优化问题

Reference:https://blog.csdn.net/philthinker/article/details/78510361

2019-03-06 19:31:45 3131

转载无约束优化问题

Reference:https://blog.csdn.net/philthinker/article/details/78191864

2019-03-06 19:30:13 806

原创信息论基础

引言所谓的信息，就是以前不知道现在知道的事实，如果某件事以前就知道，当别人再告诉你时，你会忽略，这件事对你的认知没有任何影响，这就不叫信息，反之，如果某件事以前你不知道，有人告诉你了，你现在知道了，那么对你而言，这件事就是信息。让我们更进一步，看一件事带来的信息量的大小如何来度量。顾名思义，信息量就是度量信息大小的一种量，让我们看一个形象的例子。有人告诉你巴西赢了世界杯，那么这件事对大多数人而...

2019-03-06 19:27:45 694

原创 Tensorflow学习笔记——概述

基本概念使用图（graphs）来表示计算任务，graphs是Tensorflow的核心在被称之为会话 (Session) 的上下文 (context) 中执行图使用tensor表示数据通过变量 (Variable) 维护状态使用feed和fetch可以为任意的操作赋值或者从中获取数据Tensorflow是一个编程系统，使用graphs来表示计算任务，graphs中的节点称之为ope...

2019-03-06 15:54:22 122

原创强化学习算法——Actor-Critic Algorithm (A3C)

Reference:http://www.cnblogs.com/wangxiaocvpr/p/8110120.html

2019-03-04 22:04:51 485

原创强化学习算法——Probabilistic Inference for Learning Control (PILCO)

Reference:https://blog.csdn.net/philthinker/article/details/79749038

2019-03-04 22:03:26 1605

原创强化学习算法——分类

2019-03-04 20:46:05 819

A Mathematical Introduction to Robotic Manipulation

空空如也