自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(4)
  • 收藏
  • 关注

原创 MDP

POMDP模型:状态不完全可见,考虑动作。即不完全可观察马尔可夫决策过程基本概念:一个马尔可夫决策过程由一个四元组构成M = (S, A, Psa, R) 立即回报函数r(s,a)无法说明策略的好坏。因而需要定义值函数(value function,又叫效用函数)来表明当前状态下策略π的长期影响。 是值函数最常见的形式,式中γ∈[0,1]称为折合因子,表明了未来的回报相

2017-11-15 14:50:12 2725

原创 《用python进行数据分析》语法要点总结(2)

movielens小程序 (1)打开dat文件,用pd.read_table,说明分隔符是:: (2)pd.merge的默认设置 data = pd.merge(pd.merge(ratings, users),movies)#pd根据列推断出来怎么合并 没有指定连接键,默认用重叠列名,没有指定连接方式 (3)sort_by_diff[::-1][:10]#对结果取反,男性最喜欢的电影

2017-11-13 14:04:11 289

原创 《用python进行数据分析》语法要点总结(1)

baby_name 小程序 (1)将不同的文件链接起来 frame存放不同的csv文件,给frame添加新的year列,append到piece上,最后用pd.concat将存放多个序列的piece链接,默认axis=0,行链接,就是纵向拼接 (2)添加出生比例prop,先定义一个add函数,记得将数据类型转化为float再求和并做除法。再names这个df上调用add函数,记得先按照year

2017-11-13 13:48:31 422

原创 ActorCritic学习笔记

Part1 策略梯度算法在学习AC之前必须了解一下Policy Gradients算法(PG)。PG是建立在Policy Network之上的,这是一个神经网络,输入时状态,输出直接是动作(Q值)。 a=π(s,θ)a = \pi(s,\theta) 也可以输出概率,这样输出更通用:a=π(a|s,θ)a = \pi(a|s,\theta) 更新网络参数的依据就是最大化reward函数的累加:

2017-11-12 13:08:29 860

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除