自定义博客皮肤VIP专享

*博客头图：

点击选择上传的图片

格式为PNG、JPG，宽度*高度大于1920*100像素，不超过2MB，主视觉建议放在右侧，请参照线上博客头图

请上传大于1920*100像素的图片！

博客底图：

点击选择上传的图片

图片格式为PNG、JPG，不超过1MB，可上下左右平铺至整个背景

栏目图：

点击选择上传的图片

图片格式为PNG、JPG，图片宽度*高度为300*38像素，不超过0.5MB

主标题颜色：

RGB颜色，例如：#AFAFAF

Hover：

RGB颜色，例如：#AFAFAF

副标题颜色：

RGB颜色，例如：#AFAFAF

预览取消提交

自定义博客皮肤

-+

上一步保存

天才男孩的博客

原创 PAC learning

引自知乎，兴致勃勃地看了一会，太监了。。。引自Leslie Valiant说实话，网上很多关于PAC看完还是一头雾水，这篇文章主要是对英文的翻译和一些自己的理解引言PAC学习是莱斯利·瓦利安特（Leslie Valiant）于1984年发明的，自此诞生了计算机科学的一个新的领域——计算学习理论，文中提到可以去看一看这本书《An Introduction to Computational Learning Theory.》Learning intervals举个栗子，两个玩家，玩家1给出一个区间[

2020-09-05 19:42:04 1344

原创 RLChina2020 学习笔记(2)

RLChina2020 学习笔记(2)这节课老师主要回顾了VI以及PI的方法，然后给出了RL中PAC(Probably Approximately Correct)问题的理论推导思路。首先是PAC(Probably Approximately Correct)，不得不说，这是一个百度不到的词，也确实是一个目前RL的理论研究方向。PAC的含义有大概正确的意思，老师分了两个角度去分析学习的误差：Approximation error: 数学模子不完善致使的误差，也就是说由于模型维度空间考虑的不周所带来的d

2020-08-27 16:22:14 423

原创关于CWRU轴承数据集的分类

对CWRU数据集中12K采样频率下的驱动端轴承故障数据，电机近似转速=1797的数据进行四分类。内圈故障、滚动体故障、外圈故障（中心方向@6:00）、正常file namelabel0.000-Normal.mat00.007-Ball.mat10.007-InnerRace.mat20.007-OuterRace6.mat30.014-Bal...

2019-09-18 17:34:01 8297 6

原创学习机器学习过程中的一些函数及概念

学习机器学习过程中，看到了熵这个概念，在这篇文章中找到了很好理解的解释https://baijiahao.baidu.com/s?id=1618702220267847958&wfr=spider&for=pc熵（entropy）熵代表的是随机变量或整个系统的不确定性，熵越大，随机变量或系统的不确定性就越大。在上文的例子中，熵就是在最优化策略下, 猜到颜色所需要的问题的...

2019-05-18 11:08:41 449

原创 tensorflow学习——《基本用法》

最近尝试用DQN、DDQN算法时，发现tensorflow部分有点模糊，正好忙完了一段时间乱七八糟的事，静下来心重新完整的学一遍tensorflow首先tensorflow是做图计算的tf.constant：常量tf.Variable：变量tf.matmul：矩阵乘法tf.Session() sess.run(arg)：计算arg图的输出值with tf.Sessi...

2019-05-17 16:35:57 306

原创近期工作总结

近期在研究DQN在auction模型上的应用，再扩展到MA上做对抗，但是好像告诉我模型的人给我解释错了模型…emmm，都怪我英语不好看不懂。有些学弟问我怎么做一个软件，我说至少你先把数据库建了吧，结果发现了2个问题：第一个就是我告诉他们字段最好不要有大写，不要有空格，结果他们还是空格、大写，哎…于是出于一个程序员的懒惰用翻译API实现一下翻译。第二个问题就是建个表还得到处问我数据类型…算了，再...

2019-05-12 09:18:16 647

原创多维状态的哈希存储

在尝试写mdp环境的时候，state可能是一个多维的状态，比如迷宫有{x,y}，当然也可以用x*size(y)+y来表示，或者直接识别成字符串，如书上所写key = "%d_%s"%(state, action)再或者将内容转化为byte然后存入hash（这种方法我很怀疑能不能行，毕竟不同的object转化为byte的结果不同）在一位ACMer的解题思路中，我找到了解决这个多维hash的一...

2019-04-13 14:47:00 944

原创 MCMC方法整理与理解

首先感谢大神的整理http://www.cnblogs.com/xbinworld/p/4266146.html这篇博客从这几点引入，并介绍了MCMC方法蒙特卡洛数值积分均匀分布，Box-Muller 变换Monte Carlo principle接受-拒绝抽样（Acceptance-Rejection sampling)重要性抽样(Importance sampling)马尔科...

2019-04-11 22:23:52 4098 2

原创 monte_carlo方法（maze代码实现）

首先，在上文的Maze方法中要实现随机采样的方法，这里采用了简单的随机采样方法（用U(0,1)U(0,1)U(0,1)来模拟随机动作）# 续Maze # 随机取样 def gen_randompi_sample(self, num): state_sample = [] action_sample = [] reward_samp...

2019-04-11 21:39:59 639

原创重要性采样（Importance Sampling）

重要性采样（Importance Sampling）日后补充，统计学相关知识

2019-04-09 09:19:48 12792

原创强化学习学习[1]——基于蒙特卡罗的强化学习方法

前面的知识主要是最优控制（optimal control）部分的介绍，从现在开始，开始学习强化学习内容。蒙特卡罗方法蒙特卡罗方法（Monte Carlo method），就是统计模拟的方法，蒙特卡洛的实现绝对比听起来要容易的多，最简单的例子就是当事件服从0-1分布时，我们反复去做nnn次实验，其中mmm次成功，根据大数定律，v(s)→vπ(s)asN(s)→∞v(s) →v_\pi(s) as...

2019-04-08 15:26:47 948

原创 Java中::用法

今天更新FXCreator的时候，更新Pagination插件的功能，国内很少有用fxml去配置前端的，就去google查了一下。发现里面的代码有this::function这种用法，后来查了一下，原来这是JDK8的一种语法糖。这个博客有说明https://www.cnblogs.com/tietazhan/p/7486937.html?tdsourcetag=s_pctim_aio...

2019-04-08 11:04:04 47963

原创基于模型的动态规划方法理论——策略迭代方法 and 值迭代方法（maze代码实现）

直接上代码policy_iteration_method.pyimport randomimport numpy as npclass PIM: def __init__(self): self.pi = dict() self.v = dict() def create(self, mdp): for state in...

2019-04-05 22:54:03 1097

原创 Maze环境以及DQN的实现

环境5*5的迷宫，其中(4,3)位置是出口，障碍物的位置分别为(1,1)、(1,2)、(1,3)、(1,4)、(3,2)、(3,3)、(4,2)动作空间当然4个，上下左右直接上代码~import gymimport tensorflow as tfimport numpy as npimport timeimport sysif sys.version_info.major ...

2019-04-03 21:47:40 4362

原创 JavaFXCreator更新进度

软件尝试通过数据库的列表直接生成CMS软件甚至文档目前版本暂时实现了code部分table fxml文件table controller文件table edit fxml文件table edit controller文件server文件{insert、delete、update、selectAll}model文件追加Propertydestop的ReadTable方法201...

2019-04-02 21:06:23 298

原创基于模型的动态规划方法理论——线性方程组的迭代解法

果然，理论的学习离不开数学，学习bootstrapping算法（自举算法）的时候有2个概念没听过，回头学一下这两个线性方程组的迭代解法。其中线性方程组的数值求解包括直接解法和迭代解法。直接解法有高斯消元法，矩阵三角分解法，平方根法、追赶法等。本文主要学习一下迭代解法中的何为迭代解法和高斯-赛德尔迭代法迭代解法是根据线性方程组AX=bAX=bAX=b设计一个迭代公式，取初试值X(0)X^{(...

2019-04-02 11:45:49 1019

原创基于模型的动态规划方法理论——bootstrapping算法（自举算法）

强化学习分类bootstrapping算法（自举算法）直接上公式，前面的推导过程就不粘了，跟马尔可夫那块差不多。vπ(s)=∑a∈ Aπ(a∣s)(Rsa+γ∑s′∈SPss′avπ(s′))v_\pi(s) = \sum_{a\in\ A}\pi (a|s)\left( R_s^a + \gamma \sum_{s\prime \in S} P_{ss\prime}^av_\pi...

2019-04-02 11:13:27 3532

原创 GridEnv环境代码

直接上代码emmm 就算是强化学习的HelloWorld了吧import loggingimport numpyimport randomfrom gym import spacesimport gymclass GridEnv(): metadata = { 'render.modes': ['human', 'rgb_array'], '...

2019-04-01 14:06:43 650

原创 MDP中常用的概率分布

马尔可夫决策过程(Markov Decision Process, MDP)在MDP中有一些常用的随机策略[1]. 贪婪策略贪婪策略是一个确定性策略，即只有在使得动作值函数最大的动作处取概率1，选其他动作的概率为0其中π∗(a∣s)={1,if a = arg⁡max⁡a∈Aq∗(s,a)0,otherwise\pi ^*(a|s) = \begin{cas...

2019-04-01 13:15:28 702 1

原创马尔科夫决策过程

[1]．第一个概念是马尔科夫性定义：P[St+1∣St]=P[St+1∣S1,...,St].P[S_{t+1}|S_{t}] = P[S_{t+1}|S_{1},...,S_{t}].P[St+1∣St]=P[St+1∣S1,...,St].[2]．第二个概念是马尔科夫过程马尔可夫过程是一个二元组(S,P)(S,P)(S,P)其中S是有限状态集合，P是状态转移概率。状态转移矩...

2019-03-31 21:46:53 552

原创第一个Gym程序(实验)

import gym#导入MountainCar-v0环境env = gym.make('MountainCar-v0')#初始化环境env.reset()#循环1000次for _ in range(1000): #绘图 env.render() #进行一个动作 env.step(env.action_space.sample()) # take a ...

2019-03-30 21:05:31 2076

原创搭建gym环境

之前已经安装过Anaconda和Git 所以跳过了教程安装Anaconda和Git的步骤首先在CMD下输入命令conda create --name gymlab python=3.6安装的过程如下C:\WINDOWS\system32>conda create --name gymlab python=3.6Collecting package metadata: doneS...

2019-03-30 19:20:04 3696

原创博客开通~

博客开通~终于考上了研究生，希望在研究生阶段能够学到自己感兴趣的东西~从今天开始，每天学习机器学习算法，从会用到理解

2019-03-24 09:53:14 204 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

博客等级

码龄10年

23
原创

36
点赞

211
收藏

46
粉丝

关注

私信

热门文章

分类专栏

最新评论

MCMC方法整理与理解
⁢　 ⁠⁢: α（i，j）作为新引入的变量是怎么跟接受率扯上关系的？这是作者自己加上的吗？而且从α（i，j）的公式来看得到的应该是p（i）呀，怎么扯到接受率了呢
关于CWRU轴承数据集的分类
MrKim12: 这机组取得都是里面的drive end数据吧？故障我看采样频率是12k，那97的采样频率也是12k喽？
关于CWRU轴承数据集的分类
oO蛋蛋Oo 回复 MrKim12: 97、105、118、（130、144、156），正常和三种故障，在0负载下的数据
关于CWRU轴承数据集的分类
MrKim12: 第一组就是normal_0_97.mat那个文件？
关于CWRU轴承数据集的分类
oO蛋蛋Oo 回复 MrKim12: 一共有几组数据，这是第一组，数据相比其他组全一些

提示

确定要删除当前文章？

取消删除