- 博客(5)
- 资源 (7)
- 收藏
- 关注
原创 强化学习导论(Reinforcement Learning: An Introduction)读书笔记(二):多臂赌博机(Multi-arm Bandits)
研究困难的问题之前先要解决简单的问题,本章以多臂赌博机作为问题对象。多臂赌博机是一类非常简单的问题,它只包含一种情景,但可以说明强化学习中的一些基本方法。1.多臂赌博机 多臂赌博机是指一类问题,这类问题重复的从 kk 个行为(action)中选择一个,并获得一个奖励(reward),一次选择的时间周期称为一个时间步(time-step)。当选择并执行完一个行为后,得到一个奖励,我们称奖励的期望为这次
2017-01-14 22:16:07 6362 10
原创 强化学习导论(Reinforcement Learning: An Introduction)读书笔记(一):强化学习介绍
因为课题需要研究强化学习的内容,因此开始读这方面的书,Reinforcement Learning: An Introduction(Richard S. Sutton and Andrew G.Barto)第二版作为主要学习的资料,因为英语读起来不仅速度慢,而且理解的也没那么深入,因此为了记录学到的知识,并加深理解,同时也抱着分享的态度,开始写此系列的博客。首先从第一章开始,第一章主要是对强
2017-01-14 12:43:47 11777
原创 拉格朗日对偶性
在支持向量机中,需要用拉格朗日对偶性将原始问题转换成对偶问题,解得对偶问题的解从而得到原始问题的解。在此简单介绍拉格朗日对偶性的基本原理和方法。原始问题假设f(x)f(x),ci(x)c_{i}(x),hj(x)h_{j}(x) 是定义在Rn\textbf{R}^n上的连续可微函数。考虑约束最优化问题 minx∈Rnf(x)s.t.ci(x)hj(x)≤0,i=1,2,⋯,k=0,j=1
2016-08-09 11:01:22 949 1
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人