2018年11月_coolsunxu

12月 11月 10月 09月 08月 07月 06月 05月 04月 01月

翻译 Reinforcement Learning An Introduction~Summary and History

1.6 总结强化学习是一种理解和自动化目标导向学习和决策的计算方法。它与其他计算方法的区别在于它强调代理人通过与环境的直接交互来学习，而不依赖于模范监督或完整的环境模型。我们认为，强化学习是第一个认真解决，从与环境互动中学习以实现长期目标时，出现的计算问题的领域。强化学习使用马尔可夫决策过程的正式框架来定义学习代理与其环境之间在状态，动作和奖励方面的交互。该框...

2018-11-29 15:06:11 144

翻译 Reinforcement Learning An Introduction~An Extended Example: Tic-Tac-Toe

1.5 扩展示例：三连棋游戏为了说明强化学习的一般概念并将其与其他方法进行对比，我们接下来将更详细地考虑一个单一的例子。考虑一下我们比较熟悉的孩子们的三连棋游戏。两名玩家轮流在一个三乘三的棋盘上比赛。一个玩家画X符号和另一个玩家画O符号，直到一个玩家通过在水平，垂直或对角线上连续放置三个标记来获胜，作为X玩家，他获胜的局面如下图所示。如果棋盘填...

2018-11-29 11:26:22 492 2

翻译 Reinforcement Learning An Introduction~Limitations and Scope

1.4 限制和范围强化学习在很大程度上依赖于这种称为状态的概念，它是作为政策和价值函数的输入，以及作为模型的输入和输出。非正式地，我们可以将状态视为向智能体传达，在特定时间某种“环境如何”的信号。我们在此处使用的状态的正式定义，由第3章的马尔可夫决策过程的框架给出。然而，更一般地说，我们鼓励读者遵循非正式的含义，并将状态视为是智能体对其环境来说，可获得的任何信息。实际上，我们假设...

2018-11-18 18:51:11 192

翻译 Reinforcement Learning An Introduction~Elements of Reinforcement Learning

1.3 强化学习的要素除了智能体和环境之外，我们还可以识别强化学习系统的四个主要子元素：策略，奖励信号，价值函数，以及可选的环境模型。策略定义为可以学习的智能体在给定时间的行为方式。粗略地说，策略是从感知的环境状态到在这些状态下要采取的动作的映射。它对应于心理学中所谓的一组刺激响应或关联规则。在某些情况下，策略可以是简单的函数或查找表，而在其他情况下，它可能涉及...

2018-11-17 15:43:19 307

翻译 Reinforcement Learning An Introduction~Examples

1.2 例子理解强化学习的一个好方法是考虑一些指导其发展的示例和可能的应用。大师级国际象棋选手采取行动。通过考虑可能的落子和反击这种计划来做出选择，以及对特定位置和落子的可取性采取果断的直接的判断。自适应控制器实时调整炼油厂操作的参数。控制器在此基础上优化产量/成本/质量权衡指定的边际成本，而不是严格遵守最初工程师建议的设定点。一只瞪羚小牛出生后几分钟就挣扎着。半小时后呢？它以每...

2018-11-16 10:30:46 326

翻译 Reinforcement Learning An Introduction~Reinforcement Learning

第一章介绍当我们考虑学习的本质时，我们首先想到的可能是通过与环境互动学习。当一个婴儿玩耍，挥动手臂或环顾四周时，它没有明确的老师，但它确实与其环境有直接的感觉运动联系。通过这种联系可以产生大量关于因果关系的信息，关于动作的后果，以及为实现目标应该做些什么。在我们的生活中，这种互动无疑是关于我们的环境和我们自己的主要知识来源。无论我们是学习驾驶汽车还是进行对话，我们都敏锐地意识到...

2018-11-15 16:16:35 512

翻译 Reinforcement Learning An Introduction~Summary of Notation

1、鉴于编辑需要LaTex公式，比较麻烦，所以这里贴出图片形式2、读者也可以在下面网址找到笔者上传的Doc文档https://download.csdn.net/download/coolsunxu/107855063、使用第三方翻译软件（不打广告），结合自己理解翻译，请多见谅 ...

2018-11-15 00:34:33 210

原创 Ubuntu16.04配置Gym、Torcs、Mujoco环境

参考网址：1、https://blog.csdn.net/will_ye/article/details/810874632、https://blog.csdn.net/xulingjie_online/article/details/791790823、https://www.jianshu.com/p/a3432c0e1ef24、https://www.jianshu.com/...

2018-11-11 22:49:10 2030 3

Reinforcement Learning An Introduction~Summary of Notation

强化学习导论符号摘要，大写字母表示随机变量，反之小写字母表示随机变量的值和标量函数的值。需要为实值向量的量以粗体和小写字母书写（即使是随机变量）。矩阵是粗体大写字母。

2018-11-15

mips指令cpu流水线vsd图

MIPS是世界上很流行的一种RISC处理器。MIPS的意思是“无内部互锁流水级的微处理器”(Microprocessor without interlocked piped stages)，其机制是尽量利用软件办法避免流水线中的数据相关问题。这个文件就是mips指令cpu流水线vsd图。

2017-12-19

数据结构课程设计，包含求字符串之间距离，后缀表达式计算，两个小游戏，二叉树结点染色问题，打印机任务队列，约瑟夫双向生死游戏，求解布尔表达式，谣言传播问题，分形问题，网络布线，数独游戏，中国邮路问题，最大匹配问题，最佳匹配问题，构造哈夫曼树(限选，解压缩软件(限选)，小型文本编辑器，电梯模拟系统，决策树构造，关联规则求解，老鼠走迷宫，广义表实现，无向图的简单路径，工资管理系统，散列表的设计与实现，宿舍管理查询软件，最长公共子串，英文文章统计，本科生导师制问题，镜像树，堆栈应用，矩阵位置旋转，集合运算，保龄球计分，车位管理，学生成绩管理系统，英文单词填空游戏，城市管理，数字图像处理，三子棋游戏，模拟人工洗牌，英文单词查询系统，选择合适的存储结构表示二元多项式，并实现基本的加减运算，先中后序线索二叉树

2017-01-22

TA关注的人

coolsunxu的博客