algorithm
困比比
研究方向为机器学习,深度强化学习
展开
-
强化学习算法:DQN系列详解
文章目录SarsaQ-LearningDQNDouble DQNDueling DQNReferences:SarsaSarsa 的名称来源于下图所示的序列描述:给定一个状态SSS,个体通过行为策略产生一个行为AAA,即产生一个状态行为对(S,A)(S,A)(S,A),环境收到个体的行为后会返回即时奖励RRR以及后续状态S’S’S’;个体在状态S’S’S’ 时遵循当前的行为策略产生一个新行为A...原创 2020-03-19 20:20:04 · 3565 阅读 · 0 评论 -
P问题、NP问题、NPC问题、NP-hard问题详解
要理解P问题、NP问题、NPC问题、NP-hard问题,需要先弄懂几个概念:什么是多项式时间?什么是确定性算法?什么是非确定性算法?什么是规约/约化?多项式时间(Polynomial time)什么是时间复杂度?时间复杂度并不是表示一个程序解决问题需要花多少时间,而是当程序所处理的问题规模扩大后,程序需要的时间长度对应增长得有多快。也就是说,对于某一个程序,其处理某一个特定数据的...原创 2018-09-19 18:44:24 · 51591 阅读 · 19 评论 -
Reinforcement Learning:An Introduction & David Silver & CS294 强化学习课程 学习笔记
笔记Chapter 1 Introduction;Chapter 2 Multi-armed Bandits;Chapter 3 Finite Markov Decision Processes;由于时间有限,第三章开始的笔记链接到的是References中的文章。以后有时间,有新的感悟或补充,会写出来以供交流。References[1] Reinforcement Learning:...原创 2019-03-22 09:57:48 · 318 阅读 · 0 评论