- 博客(6)
- 资源 (1)
- 收藏
- 关注
原创 增强学习(二)——策略迭代与值迭代
本篇博客对“有模型学习”的两种方法进行介绍,分别是策略迭代和值迭代。我们之前已经说到了MDP可以表示成一个元组(X, A, Psa, R),我们对最优策略的求解方法自然也就与这个元组密切相关:如果该过程的四元组均为已知,我们称这样的模型为“模型已知”,对这种已知所有环境因素的学习称为“有模型学习”(model-basedlearning);与之对应的就是“无模型学习”,环境因素机器无法得知的,主要是指状态转移概率Pxa。
2017-08-30 14:34:52 12586 10
原创 2017阿里巴巴校招在线笔试——货架格子编号
最近有些忙,今天才有时间整理一下之前写的第二题代码。第二道题目是菜鸟仓库的货架格子编号问题,题目的意思是货架可以按下面的方式进行编号,求从头数下来第k个货物编号是多少?
2017-08-27 14:06:17 898
转载 Andrew Ng 的 Deep Learning 教程翻译
Andrew Ng教授写的教程确实比较易懂,深入浅出,有理论有例子,个人感觉会比纯理论的书看上去更舒服。索性转载来了我正在看的翻译教程,据说是一群中国人50天翻译出来的,而且放在了Stanford Deep Learning网站上,着实厉害,我辈楷模。
2017-08-26 18:30:34 1197
原创 拥塞控制算法分类
这几天写了一份项目书,正好对之前看过的拥塞控制算法进行了一次整理,主要是从算法机制分析优缺点。我把现有的拥塞控制技术分成了五大类:传统的基于丢包或基于延迟方法,这两个类别是通用的分类,那些比较远古的算法基本上就可以这么二分;基于链路容量预测,基于延迟目标和基于学习或探测的这三类,主要包含了近几年的一些算法,其中延迟目标方法和传统的基于延迟的方法有些类似,但是也有本身的特点,我就单列了。
2017-08-25 12:15:12 5387 2
原创 增强学习(一)——马尔科夫决策过程(MDP)
增强学习(reinforcement learning,RL)是近年来机器学习和智能控制领域的主要方法之一。在增强学习中有三个概念:状态、动作和回报。 “状态(state)”是描述当前情况的。对一个正在学习行走的机器人来说,状态是它的两条腿的位置。对一个围棋程序来说,状态是棋盘上所有棋子的位置。 “动作(action)”是一个智能体在每个状态中可以做的事情。给定一个机器人两条腿的状态或位置,它可以在一定距离内走几步。通常一个智能体只能采取有限或者固定范围内的动作。例如一个机器人的
2017-08-02 18:03:29 4946
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人