2020年02月_小小何先生

12月 11月 10月 09月 08月 07月 06月 05月 04月 03月 02月 01月

原创【大规模深度强化学习(一) 】深度强化学习中的异步方法(A3C)

论文题目：Asynchronous Methods for Deep Reinforcement Learning所解决的问题？在强化学习算法中agent所观测到的data是 non-stationary和strongly correlated的。通过设置memory的方式可以 reduces non-stationarity and decorrelates updates，但是会...

2020-02-29 21:06:12 1049

原创强化学习中值迭代收敛性推理证明

在开始证明之前，我想说的是定理是证明给怀疑者，如果你对这个定理不怀疑，那么你就不需要证明。接下来直观感受一下强化学习中值迭代的收敛性。假设现在的Agent处于一个state sss 下，想要去找一个optimal state，那怎么去找呢？就是遍历所有的policy能够使得当前的statesss，在遍历的某个policy πx\pi_{x}πx下值最大，也就找到了这个state所对应的...

2020-02-28 22:40:52 2277

原创【5分钟 Paper】Prioritized Experience Replay

论文题目：Prioritized Experience Replay所解决的问题？ Experience replay能够让强化学习去考虑过去的一些经验，在这篇文章之前通常采用随机采样的方式在记忆库中采样。但是有一些记忆比较关键，因此随机采样的方式就不太好。作者提出了一种prioritizing experience的方式，来提高学习的效率。背景之前的做法像DQN基本上都是从记...

2020-02-28 21:29:42 982

原创手把手教你强化学习(十) 基于Stochastic Policy的深度强化学习方法

在开始说基于Stochastic Policy的方法之前，我们需要了解一下Policy Gradient的方法。在Policy Gradient里面有一个非常重要的定理：Policy Gradient Theorem。Theorem： For any differentiable policy πθ(a∣s)\pi_{\theta}(a|s)πθ(a∣s), for any of ...

2020-02-26 11:02:27 631 1

原创手把手教你强化学习 (九) 强化学习中策略梯度算法

在强化学习中的值函数近似算法文章中有说怎么用参数方程去近似state value ，那policy能不能被parametrize呢？其实policy可以被看成是从state到action的一个映射a←π(s)a \leftarrow \pi(s)a←π(s)，Parametric Policy We can parametrize the policy：πθ(a∣s)\pi_{...

2020-02-25 10:17:23 927 1

原创手把手教你强化学习 (八) 强化学习中的值函数近似算法

强化学习算法主要有两大类Model-based 的方法和Model-free的方法，model based 的方法也可以叫做 dynamic programming ：Model-based dynamic programmingValue iteration： V(s)=R(s)+max⁡a∈Aγ∑s′∈SPsa(s′)V(s′)V(s) = R(s) + \max_{a \in ...

2020-02-24 09:16:45 1828 1

原创手把手教你强化学习 (七) 强化学习中的无模型控制

在上一篇文章强化学习中的无模型预测中，有说过这个无模型强化学习的预测问题，通过TD、n-step TD或者MC的方法能够获得值函数，那拿到value之后如何获取policy呢？Model-Free Control in Reinforcement Learning 在model free control中的第一个概念就是on-policy 和 off-policy，在现实中的很多问题都是...

2020-02-23 19:53:02 1568

原创【5分钟 Paper】Deep Reinforcement Learning with Double Q-learning

论文题目：Deep Reinforcement Learning with Double Q-learning所解决的问题？ Q-Learning算法中存在动作值函数过估计(overestimate action values)的问题(因为其更新方程中包含一个maximization动作值函数的一项)，那这样的过估计问题是否会对其算法性能有所影响呢？能不能去避免这样的一种过估计问题呢？...

2020-02-23 10:42:32 598

原创【5分钟 Paper】Dueling Network Architectures for Deep Reinforcement Learning

论文题目：Dueling Network Architectures for Deep Reinforcement Learning所解决的问题？主要贡献是提出了一种新的应用于强化学习的神经网络框架。背景之前对强化学习的改进主要是集中在对现有的网络结构的改变，像什么引入卷积神经网络，LSTM和Autoencoder这些。而这篇文章是提出了一种新的神经网络结构更好地去适应mod...

2020-02-23 10:41:18 621 1

原创【5分钟 Paper】Deep Recurrent Q-Learning for Partially Observable MDPs

论文题目：Deep Recurrent Q-Learning for Partially Observable MDPs 这篇论文最开始是15年提出来的，但最新的修订版本是17年的，下文所有内容都以17年版本为主。论文链接：https://arxiv.org/abs/1507.06527所解决的问题？如题目中所述，作者解决的就是部分可观测马尔可夫决策过程 (Partiall...

2020-02-23 10:40:03 659

原创【5分钟 Paper】Playing Atari with Deep Reinforcement Learning

论文题目：Playing Atari with Deep Reinforcement Learning所解决的问题？解决从高维传感器获取数据而端到端实现控制的难题(以前很多都是使用手工提取的特征)。所使用的例子：直接用图像数据学会控制Atari游戏，并且达到了人类水平。背景在这之前已经有很多研究工作是直接从高维数据直接获取输出结果的例子。如视觉和语音方面(文末参考文献中有具体...

2020-02-23 10:39:53 1243

翻译 Richard S. Sutton个人主页翻译

个人主页地址：http://www.incompleteideas.net/我的微信公众号名称：深度学习与先进智能决策微信公众号ID：MultiAgent1024公众号介绍：主要研究强化学习、计算机视觉、深度学习、机器学习等相关内容，分享学习过程中的学习笔记和心得！期待您的关注，欢迎一起学习交流进步！...

2020-02-23 10:22:24 446

原创经典机器学习系列(七)【聚类分析】

在《战国策·齐策三》中有这么一句话：“物以类聚，人以群分”，用于比喻同类的东西常聚在一起，志同道合的人相聚成群，反之就分开。而所谓的科学，不过是把我们日常的生活经验，大自然的规律用数学的语言描述出来罢了。在机器学习中也有这么一类算法，聚类算法，借鉴的就是“物以类聚，人以群分”的思想。想想人在生活中是如何做到“聚类”的。我们通常会跟自己很像的人在一起玩，比如同龄人、有共同爱好的人，相同的社...

2020-02-23 10:19:54 1153 1

在大多是强化学习(reinforcement learning RL)问题中，环境的model都是未知的，也就无法直接做动态规划。一种方法是去学MDP，在这个系列的理解强化学习中的策略迭代和值迭代这篇文章中有具体思路。但这种做法还是会存在很多问题，就是在sample过程中会比较麻烦，如果你随机sample的话就会有某些state你很难sample到，而按照某种策略sample的话，又很难得到...

2020-02-23 10:17:56 2524

原创手把手教你强化学习 (五) 为什么需要值迭代和策略迭代

在这个系列的马尔可夫决策过程与动态规划这篇文章中我们是有说这个策略迭代和值迭代的，但是说的更公式化一点，本文主要是对其进行一个更加深刻的理解。为什么需要值迭代其实我们更希望强化学习直接学习出来一个policy直接用这个policy解决问题就可以，那为什么还需要value function呢？其实这个value function是非常重要的，当我们拿到一个state之后，follow当...

2020-02-22 22:13:08 1988

原创手把手教你强化学习 (四)动态规划与策略迭代、值迭代

上一节我们说了马尔可夫决策过程，它是对完全可观测的环境进行描述的，也就是观测到的内容完整决定了决策所需要的特征。马尔克服决策过程可以用方程组求解简单问题，但是对于复杂一点的问题，一般通过迭代的思想对其进行求解。动态规划是非常有效的求解马尔可夫决策过程的方法。动态规划大体思想：在已知模型的基础之上判断策略的价值函数，并在此基础上寻找最优的策略和最优的价值函数；或者直接寻找最优策略和最优价...

2020-02-22 22:12:44 3830 1

原创手把手教你强化学习 (三)马尔可夫决策过程与贝尔曼方程

在强化学习中，马尔可夫决策过程是对完全可观测的环境进行描述的，也就是说观测到的状态内容完整地包含了决策所需要的特征，几乎所有的强化学习问题都可以转化为MDP。马尔可夫性什么样的状态具备马尔可夫性(Markov Property)呢？当某一当前状态可知，所有的历史信息都不再需要，当前状态就可以用来决定未来，则认为该状态具有马尔可夫性。用状态转移的概率公式描述马尔可夫性表示如下：P[St...

2020-02-22 22:12:08 2872 1

原创对抗搜索之【最大最小搜索】【Alpha-Beta剪枝搜索】

本节这里我们讨论的是确定的、完全可观测、序贯决策、零和游戏下的对抗搜索。所谓零和博弈是博弈论的一个概念，属非合作博弈。指参与博弈的各方，在严格竞争下，一方的收益必然意味着另一方的损失，博弈各方的收益和损失相加总和永远为“零”，双方不存在合作的可能。对抗搜索(Adversarial Search)一般指的是博弈双方会阻止对方收益最大化，也称为博弈搜索(Game Search)。在...

2020-02-22 22:11:43 4319 1

原创启发式搜索 (Heuristically Search)-【贪婪最佳优先搜索】和【A*搜索】

搜索是人工智能里面研究的一个核心问题，像强化学习其本质我也是理解为一种搜索算法，不过其用了一些值函数近似的方法，并做了进一步改良，使其功能更加强大。近些年来也有非常多学术研究者慢慢开始将两者融汇贯通发顶会了。比如像Goog的planet，Muzero以及将熵用于蒙特卡洛树搜索中平衡探索和利用的关系等等。启发式搜索启发式搜索(Heuristically Search)又称为有信息搜索(I...

2020-02-22 22:11:31 15388 2

原创经典机器学习系列(十二)【学习排序】

排序学习一般被认为是supervised learning中的一个特例，谈到supervised learning其loss function一般表示为如下形式：minθ1N∑i=1NL(yi,fθ(xi))\text{min}_{\theta} \frac{1}{N} \sum_{i=1}^{N} \mathcal{L}\left( y_{i}, f_{\theta}(x_{i})\ri...

2020-02-22 22:11:03 878 1

原创经典机器学习系列(十一)【个性化推荐之协同过滤】

对推荐系统还没有直观理解的同学可以参考之前所写的文章：TODO 协同过滤(Collaborative Filtering)是当前推荐系统最为流行的一种方法，就是说我们不只是基于内容进行推荐，我们还基于一些用户之间的协同行为去给用户做推荐，或者称之为个性化推荐。推荐系统本身和信息检索( information retrieval)具有很强的相关性，甚至被认为是一种能力更强的信息检索，与...

2020-02-22 22:10:47 894

原创经典机器学习系列(七)【聚类分析前序--相似性度量】

相似性度量是机器学习中一个非常基础的概念：是评定两个事物之间相似程度的一种度量，尤其是在聚类、推荐算法中尤为重要。其本质就是一种量化标准。相似性度量的方法有很多，主要包括以下几种：欧式距离欧式距离是一种经常使用的一种度量方法，主要描述为以下数学形式：两个nnn维向量α(x11,x12,⋯ ,x1n)\alpha (x_{11}, x_{12}, \cdots ,x_{1n}...

2020-02-22 22:09:53 796 1

原创手把手教你强化学习 (二) 强化学习的直观理解和基本概念

我的微信公众号名称：AI研究订阅号微信公众号ID：MultiAgent1024公众号介绍：主要研究强化学习、计算机视觉、深度学习、机器学习等相关内容，分享学习过程中的学习笔记和心得！期待您的关注，欢迎一起学习交流进步！强化学习中的基本概念p47...

2020-02-07 10:35:33 2031

原创手把手教你强化学习 (一) 什么是强化学习？与机器学习有什么区别？

我的微信公众号名称：AI研究订阅号微信公众号ID：MultiAgent1024公众号介绍：主要研究强化学习、计算机视觉、深度学习、机器学习等相关内容，分享学习过程中的学习笔记和心得！期待您的关注，欢迎一起学习交流进步！强化学习基本简介在19年4月，有写过一篇强化学习的入门直观简介。强化学习通俗入门简介(一)。感兴趣的可以看一下，如果知道一些基本概念的话，也就没啥必要了，都是些很通俗...

2020-02-07 10:35:18 3619 5

原创深度强化学习中实验环境-开源平台框架汇总

本文汇总了常用的验证强化学习算法的开源环境平台。当我们设计了一个强化学习算法之后，我们如何来验证算法的好坏呢？就像数据集一样，我们需要一个公认的平台来衡量这个算法。这样的一个平台，最基本的需要有仿真和渲染。OpenAI Gym and Universe 业界最出名的莫过于Gym和Universe了。OpenAI Gym用于评估和比较强化学习算法的好坏。它的接口支持在任何框架下的算法...

2020-02-05 19:45:51 3147

原创经典机器学习系列(六)【集成学习】之周志华西瓜书-AdaBoost算法证明解析

本节证明并未从集成学习源头开始，如若对集成学习还不是很清楚的同学，参考文章：经典机器学习系列之【集成学习】AdaBoost算法证明本文以周志华西瓜书推导过程为例，以“加性模型”（additive model）进行解析：将基学习器ht(x)h_{t}(\boldsymbol{x})ht(x)线性组合，则基学习器的线性组合表示为如下H(x)H(\boldsymbol{x})H(x)...

2020-02-04 16:04:35 1021 2

原创经典机器学习系列(六)【集成学习】

中国有句老古话，叫“三个臭皮匠顶个诸葛亮”，说的是人多力量大，可也有句成语叫“乌合之众”。在机器学习中也有一类算法，将这两种思想融合起来，它就是集成学习，算法将不同的学习器融合在一起。在集成学习中，算法不要求每个学习器性能最好，但是期望它们对问题具有不同的看法，Good But Different (好而不同)。如果在分类问题上描述的话，所表示的就是具有不同的划分能力，对于一些样本...

2020-02-04 15:13:37 930 1

基于Verilog语言的FPGA交通灯设计.zip

FPGA交通灯课程设计，基于Verilog程序语言。包含课程任务书、源代码程序、对应PPT、实验结果的视频讲解。可查看相应的文章详解：https://zhiqianghe.blog.csdn.net/article/details/107022548。

2020-06-29

A股-行业-市值排名python排序.zip

包含一个A股公司与市值的execle表格，python程序对这些公司进行排序。pd.read_excel读取execle数据，之后对每个行业分开处理，找到当前查找这个行业的所有公司，依据市值排序，取出前4名公司。

2020-06-24

莫烦强化学习部分算法代码解析.pdf

莫烦课程强化学习部分的代码解析，从q-learning算法到ddpg算法，整体代码的思路流程，还有关键部分的详细解释，配套公式详解。

2020-06-14

Machine Learning-李宏毅.docx

李宏毅机器学习课程笔记，非常详细，从回归到梯度上升，分类，反向传播，卷积神经网络，半监督，无监督，线性模型等。

2020-06-14

元策略优化的MBRL算法.pptx

基于元策略优化的MBRL(大数据科学课堂报告)，配套的演讲词为：https://blog.csdn.net/weixin_39059031/article/details/106050195

2020-05-17

数学建模优质资料.zip

20多种建模算法大全，详细解释了各种算法，为你建模保驾护航，9篇关于美赛建模的讲义，手把手教你建模，灵敏度分析，让你模型胜别人一筹，资料关于美赛建模的word模板，全套服务。

2020-03-11

17国赛论文.rar

17年国赛论文及部分参考解题思路答案。含有：全国大学生数学建模竞赛论文格式规范（全国大学生数学建模竞赛组委会，2017年修订稿）

2020-03-11

算法适用类型.doc

数学建模各个算法的适用对象，有：1.灰色神经网络、禁忌算法、遗传算法、模拟退火、粒子群优化算法、神经网络模型、支持向量机、多元分析、聚类分析、主成分分析。

2020-03-11

数学建模思想方法大全及方法适用范围(主讲人厚积薄发-数学中国版主).pdf

数学中国国赛专题培训《数学建模思想方法大全及使用范围》。详细讲解了建模的思想、方法。是一本很好的学习培训资料。

2020-03-11

mcm2018blanguages.zip

2018年数学建模美赛MCM B题的五篇O奖论文，“建立语言使用人数的分布模型”“根据模型预测50年后的使用top10”“预测50年后各语言的地理分布”三个问题。

2020-03-11

研究生学术综合英语1-6课课文及翻译.pdf

东北大学学术综合英语1-6课文及翻译：1.Presenting a speech ；Unit 2 Energy in Transition ；Do Traffic Tickets Save Lives；His Politeness Is Her Powerlessness ；The Long War Against Corruption ；From Kaifeng to New York － Glory Is as Ephemeral as

2020-03-03