自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(6)
  • 资源 (1)
  • 收藏
  • 关注

原创 增强学习(二)——策略迭代与值迭代

本篇博客对“有模型学习”的两种方法进行介绍,分别是策略迭代和值迭代。我们之前已经说到了MDP可以表示成一个元组(X, A, Psa, R),我们对最优策略的求解方法自然也就与这个元组密切相关:如果该过程的四元组均为已知,我们称这样的模型为“模型已知”,对这种已知所有环境因素的学习称为“有模型学习”(model-basedlearning);与之对应的就是“无模型学习”,环境因素机器无法得知的,主要是指状态转移概率Pxa。

2017-08-30 14:34:52 12586 10

转载 一篇与技术无关的,愿自己常记在心的鸡汤

怎样做科研,愿自己常记在心。

2017-08-27 23:39:22 605

原创 2017阿里巴巴校招在线笔试——货架格子编号

最近有些忙,今天才有时间整理一下之前写的第二题代码。第二道题目是菜鸟仓库的货架格子编号问题,题目的意思是货架可以按下面的方式进行编号,求从头数下来第k个货物编号是多少?

2017-08-27 14:06:17 898

转载 Andrew Ng 的 Deep Learning 教程翻译

Andrew Ng教授写的教程确实比较易懂,深入浅出,有理论有例子,个人感觉会比纯理论的书看上去更舒服。索性转载来了我正在看的翻译教程,据说是一群中国人50天翻译出来的,而且放在了Stanford Deep Learning网站上,着实厉害,我辈楷模。

2017-08-26 18:30:34 1197

原创 拥塞控制算法分类

这几天写了一份项目书,正好对之前看过的拥塞控制算法进行了一次整理,主要是从算法机制分析优缺点。我把现有的拥塞控制技术分成了五大类:传统的基于丢包或基于延迟方法,这两个类别是通用的分类,那些比较远古的算法基本上就可以这么二分;基于链路容量预测,基于延迟目标和基于学习或探测的这三类,主要包含了近几年的一些算法,其中延迟目标方法和传统的基于延迟的方法有些类似,但是也有本身的特点,我就单列了。

2017-08-25 12:15:12 5387 2

原创 增强学习(一)——马尔科夫决策过程(MDP)

增强学习(reinforcement learning,RL)是近年来机器学习和智能控制领域的主要方法之一。在增强学习中有三个概念:状态、动作和回报。 “状态(state)”是描述当前情况的。对一个正在学习行走的机器人来说,状态是它的两条腿的位置。对一个围棋程序来说,状态是棋盘上所有棋子的位置。 “动作(action)”是一个智能体在每个状态中可以做的事情。给定一个机器人两条腿的状态或位置,它可以在一定距离内走几步。通常一个智能体只能采取有限或者固定范围内的动作。例如一个机器人的

2017-08-02 18:03:29 4946

BGS 背景建模/前景提取 集成软件

对于视频的背景建模/前景提取,集成了BGS库的可视化软件。且可通过xml修改模型参数。

2017-10-08

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除