自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(23)
  • 收藏
  • 关注

原创 PAC learning

引自知乎,兴致勃勃地看了一会,太监了。。。引自Leslie Valiant说实话,网上很多关于PAC看完还是一头雾水,这篇文章主要是对英文的翻译和一些自己的理解引言PAC学习是莱斯利·瓦利安特(Leslie Valiant)于1984年发明的,自此诞生了计算机科学的一个新的领域——计算学习理论,文中提到可以去看一看这本书《An Introduction to Computational Learning Theory.》Learning intervals举个栗子,两个玩家,玩家1给出一个区间[

2020-09-05 19:42:04 1189

原创 RLChina2020 学习笔记(2)

RLChina2020 学习笔记(2)这节课老师主要回顾了VI以及PI的方法,然后给出了RL中PAC(Probably Approximately Correct)问题的理论推导思路。首先是PAC(Probably Approximately Correct),不得不说,这是一个百度不到的词,也确实是一个目前RL的理论研究方向。PAC的含义有大概正确的意思,老师分了两个角度去分析学习的误差:Approximation error: 数学模子不完善致使的误差,也就是说由于模型维度空间考虑的不周所带来的d

2020-08-27 16:22:14 344

原创 关于CWRU轴承数据集的分类

对CWRU数据集中12K采样频率下的驱动端轴承故障数据,电机近似转速=1797的数据进行四分类。内圈故障、滚动体故障、外圈故障(中心方向@6:00)、正常file namelabel0.000-Normal.mat00.007-Ball.mat10.007-InnerRace.mat20.007-OuterRace6.mat30.014-Bal...

2019-09-18 17:34:01 7969 6

原创 学习机器学习过程中的一些函数及概念

学习机器学习过程中,看到了熵这个概念,在这篇文章中找到了很好理解的解释https://baijiahao.baidu.com/s?id=1618702220267847958&wfr=spider&for=pc熵(entropy)熵代表的是随机变量或整个系统的不确定性,熵越大,随机变量或系统的不确定性就越大。在上文的例子中,熵就是在最优化策略下, 猜到颜色所需要的问题的...

2019-05-18 11:08:41 387

原创 tensorflow学习——《基本用法》

最近尝试用DQN、DDQN算法时,发现tensorflow部分有点模糊,正好忙完了一段时间乱七八糟的事,静下来心重新完整的学一遍tensorflow首先tensorflow是做图计算的tf.constant:常量tf.Variable:变量tf.matmul:矩阵乘法tf.Session() sess.run(arg):计算arg图的输出值with tf.Sessi...

2019-05-17 16:35:57 261

原创 近期工作总结

近期在研究DQN在auction模型上的应用,再扩展到MA上做对抗,但是好像告诉我模型的人给我解释错了模型…emmm,都怪我英语不好看不懂。有些学弟问我怎么做一个软件,我说至少你先把数据库建了吧,结果发现了2个问题:第一个就是我告诉他们字段最好不要有大写,不要有空格,结果他们还是空格、大写,哎…于是出于一个程序员的懒惰用翻译API实现一下翻译。第二个问题就是建个表还得到处问我数据类型…算了,再...

2019-05-12 09:18:16 586

原创 多维状态的哈希存储

在尝试写mdp环境的时候,state可能是一个多维的状态,比如迷宫有{x,y},当然也可以用x*size(y)+y来表示,或者直接识别成字符串,如书上所写key = "%d_%s"%(state, action)再或者将内容转化为byte然后存入hash(这种方法我很怀疑能不能行,毕竟不同的object转化为byte的结果不同)在一位ACMer的解题思路中,我找到了解决这个多维hash的一...

2019-04-13 14:47:00 837

原创 MCMC方法整理与理解

首先感谢大神的整理http://www.cnblogs.com/xbinworld/p/4266146.html这篇博客从这几点引入,并介绍了MCMC方法蒙特卡洛数值积分均匀分布,Box-Muller 变换Monte Carlo principle接受-拒绝抽样(Acceptance-Rejection sampling)重要性抽样(Importance sampling)马尔科...

2019-04-11 22:23:52 3948 2

原创 monte_carlo方法(maze代码实现)

首先,在上文的Maze方法中要实现随机采样的方法,这里采用了简单的随机采样方法(用U(0,1)U(0,1)U(0,1)来模拟随机动作)# 续Maze # 随机取样 def gen_randompi_sample(self, num): state_sample = [] action_sample = [] reward_samp...

2019-04-11 21:39:59 592

原创 重要性采样(Importance Sampling)

重要性采样(Importance Sampling)日后补充,统计学相关知识

2019-04-09 09:19:48 12452

原创 强化学习学习[1]——基于蒙特卡罗的强化学习方法

前面的知识主要是最优控制(optimal control)部分的介绍,从现在开始,开始学习强化学习内容。蒙特卡罗方法蒙特卡罗方法(Monte Carlo method),就是统计模拟的方法,蒙特卡洛的实现绝对比听起来要容易的多,最简单的例子就是当事件服从0-1分布时,我们反复去做nnn次实验,其中mmm次成功,根据大数定律,v(s)→vπ(s)asN(s)→∞v(s) →v_\pi(s) as...

2019-04-08 15:26:47 881

原创 Java中::用法

今天更新FXCreator的时候,更新Pagination插件的功能,国内很少有用fxml去配置前端的,就去google查了一下。发现里面的代码有this::function这种用法,后来查了一下, 原来这是JDK8的一种语法糖。这个博客有说明https://www.cnblogs.com/tietazhan/p/7486937.html?tdsourcetag=s_pctim_aio...

2019-04-08 11:04:04 47725

原创 基于模型的动态规划方法理论——策略迭代方法 and 值迭代方法(maze代码实现)

直接上代码policy_iteration_method.pyimport randomimport numpy as npclass PIM: def __init__(self): self.pi = dict() self.v = dict() def create(self, mdp): for state in...

2019-04-05 22:54:03 997

原创 Maze环境以及DQN的实现

环境5*5的迷宫,其中(4,3)位置是出口,障碍物的位置分别为(1,1)、(1,2)、(1,3)、(1,4)、(3,2)、(3,3)、(4,2)动作空间当然4个,上下左右直接上代码~import gymimport tensorflow as tfimport numpy as npimport timeimport sysif sys.version_info.major ...

2019-04-03 21:47:40 4117

原创 JavaFXCreator更新进度

软件尝试通过数据库的列表直接生成CMS软件甚至文档目前版本暂时实现了code部分table fxml文件table controller文件table edit fxml文件table edit controller文件server文件{insert、delete、update、selectAll}model文件追加Propertydestop的ReadTable方法201...

2019-04-02 21:06:23 249

原创 基于模型的动态规划方法理论——线性方程组的迭代解法

果然,理论的学习离不开数学,学习bootstrapping算法(自举算法)的时候有2个概念没听过,回头学一下这两个线性方程组的迭代解法。其中线性方程组的数值求解包括直接解法和迭代解法。直接解法有高斯消元法,矩阵三角分解法,平方根法、追赶法等。本文主要学习一下迭代解法中的何为迭代解法和高斯-赛德尔迭代法迭代解法是根据线性方程组AX=bAX=bAX=b设计一个迭代公式,取初试值X(0)X^{(...

2019-04-02 11:45:49 906

原创 基于模型的动态规划方法理论——bootstrapping算法(自举算法)

强化学习分类bootstrapping算法(自举算法)直接上公式,前面的推导过程就不粘了,跟马尔可夫那块差不多。vπ(s)=∑a∈ Aπ(a∣s)(Rsa+γ∑s′∈SPss′avπ(s′))v_\pi(s) = \sum_{a\in\ A}\pi (a|s)\left( R_s^a + \gamma \sum_{s\prime \in S} P_{ss\prime}^av_\pi...

2019-04-02 11:13:27 3354

原创 GridEnv环境代码

直接上代码emmm 就算是强化学习的HelloWorld了吧import loggingimport numpyimport randomfrom gym import spacesimport gymclass GridEnv(): metadata = { 'render.modes': ['human', 'rgb_array'], '...

2019-04-01 14:06:43 584

原创 MDP中常用的概率分布

马尔可夫决策过程(Markov Decision Process, MDP)在MDP中有一些常用的随机策略[1]. 贪婪策略贪婪策略是一个确定性策略,即只有在使得动作值函数最大的动作处取概率1,选其他动作的概率为0其中π∗(a∣s)={1,if a = arg⁡max⁡a∈Aq∗(s,a)0,otherwise\pi ^*(a|s) = \begin{cas...

2019-04-01 13:15:28 641 1

原创 马尔科夫决策过程

[1].第一个概念是马尔科夫性定义:P[St+1∣St]=P[St+1∣S1,...,St].P[S_{t+1}|S_{t}] = P[S_{t+1}|S_{1},...,S_{t}].P[St+1​∣St​]=P[St+1​∣S1​,...,St​].[2].第二个概念是马尔科夫过程马尔可夫过程是一个二元组(S,P)(S,P)(S,P)其中S是有限状态集合,P是状态转移概率。状态转移矩...

2019-03-31 21:46:53 473

原创 第一个Gym程序(实验)

import gym#导入MountainCar-v0环境env = gym.make('MountainCar-v0')#初始化环境env.reset()#循环1000次for _ in range(1000): #绘图 env.render() #进行一个动作 env.step(env.action_space.sample()) # take a ...

2019-03-30 21:05:31 2014

原创 搭建gym环境

之前已经安装过Anaconda和Git 所以跳过了教程安装Anaconda和Git的步骤首先在CMD下输入命令conda create --name gymlab python=3.6安装的过程如下C:\WINDOWS\system32>conda create --name gymlab python=3.6Collecting package metadata: doneS...

2019-03-30 19:20:04 3620

原创 博客开通~

博客开通~终于考上了研究生,希望在研究生阶段能够学到自己感兴趣的东西~从今天开始,每天学习机器学习算法,从会用到理解

2019-03-24 09:53:14 165 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除