2017年08月_Bordery

12月 11月 10月 09月 08月 07月

原创增强学习（二）——策略迭代与值迭代

本篇博客对“有模型学习”的两种方法进行介绍，分别是策略迭代和值迭代。我们之前已经说到了MDP可以表示成一个元组（X, A, Psa, R），我们对最优策略的求解方法自然也就与这个元组密切相关：如果该过程的四元组均为已知，我们称这样的模型为“模型已知”，对这种已知所有环境因素的学习称为“有模型学习”（model-basedlearning）；与之对应的就是“无模型学习”，环境因素机器无法得知的，主要是指状态转移概率Pxa。

2017-08-30 14:34:52 12586 10

转载一篇与技术无关的，愿自己常记在心的鸡汤

怎样做科研，愿自己常记在心。

2017-08-27 23:39:22 605

原创 2017阿里巴巴校招在线笔试——货架格子编号

最近有些忙，今天才有时间整理一下之前写的第二题代码。第二道题目是菜鸟仓库的货架格子编号问题，题目的意思是货架可以按下面的方式进行编号，求从头数下来第k个货物编号是多少？

2017-08-27 14:06:17 898

转载 Andrew Ng 的 Deep Learning 教程翻译

Andrew Ng教授写的教程确实比较易懂，深入浅出，有理论有例子，个人感觉会比纯理论的书看上去更舒服。索性转载来了我正在看的翻译教程，据说是一群中国人50天翻译出来的，而且放在了Stanford Deep Learning网站上，着实厉害，我辈楷模。

2017-08-26 18:30:34 1197

原创拥塞控制算法分类

这几天写了一份项目书，正好对之前看过的拥塞控制算法进行了一次整理，主要是从算法机制分析优缺点。我把现有的拥塞控制技术分成了五大类：传统的基于丢包或基于延迟方法，这两个类别是通用的分类，那些比较远古的算法基本上就可以这么二分；基于链路容量预测，基于延迟目标和基于学习或探测的这三类，主要包含了近几年的一些算法，其中延迟目标方法和传统的基于延迟的方法有些类似，但是也有本身的特点，我就单列了。

2017-08-25 12:15:12 5387 2

原创增强学习（一）——马尔科夫决策过程（MDP）

增强学习（reinforcement learning,RL）是近年来机器学习和智能控制领域的主要方法之一。在增强学习中有三个概念：状态、动作和回报。 “状态（state）”是描述当前情况的。对一个正在学习行走的机器人来说，状态是它的两条腿的位置。对一个围棋程序来说，状态是棋盘上所有棋子的位置。 “动作（action）”是一个智能体在每个状态中可以做的事情。给定一个机器人两条腿的状态或位置，它可以在一定距离内走几步。通常一个智能体只能采取有限或者固定范围内的动作。例如一个机器人的

2017-08-02 18:03:29 4946

BGS 背景建模／前景提取集成软件

对于视频的背景建模／前景提取，集成了BGS库的可视化软件。且可通过xml修改模型参数。

2017-10-08

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

原创 增强学习（二）——策略迭代与值迭代

转载 一篇与技术无关的，愿自己常记在心的鸡汤