- 博客(4)
- 收藏
- 关注
原创 MDP
POMDP模型:状态不完全可见,考虑动作。即不完全可观察马尔可夫决策过程基本概念:一个马尔可夫决策过程由一个四元组构成M = (S, A, Psa, R) 立即回报函数r(s,a)无法说明策略的好坏。因而需要定义值函数(value function,又叫效用函数)来表明当前状态下策略π的长期影响。 是值函数最常见的形式,式中γ∈[0,1]称为折合因子,表明了未来的回报相
2017-11-15 14:50:12 2741
原创 《用python进行数据分析》语法要点总结(2)
movielens小程序 (1)打开dat文件,用pd.read_table,说明分隔符是:: (2)pd.merge的默认设置 data = pd.merge(pd.merge(ratings, users),movies)#pd根据列推断出来怎么合并 没有指定连接键,默认用重叠列名,没有指定连接方式 (3)sort_by_diff[::-1][:10]#对结果取反,男性最喜欢的电影
2017-11-13 14:04:11 298
原创 《用python进行数据分析》语法要点总结(1)
baby_name 小程序 (1)将不同的文件链接起来 frame存放不同的csv文件,给frame添加新的year列,append到piece上,最后用pd.concat将存放多个序列的piece链接,默认axis=0,行链接,就是纵向拼接 (2)添加出生比例prop,先定义一个add函数,记得将数据类型转化为float再求和并做除法。再names这个df上调用add函数,记得先按照year
2017-11-13 13:48:31 432
原创 ActorCritic学习笔记
Part1 策略梯度算法在学习AC之前必须了解一下Policy Gradients算法(PG)。PG是建立在Policy Network之上的,这是一个神经网络,输入时状态,输出直接是动作(Q值)。 a=π(s,θ)a = \pi(s,\theta) 也可以输出概率,这样输出更通用:a=π(a|s,θ)a = \pi(a|s,\theta) 更新网络参数的依据就是最大化reward函数的累加:
2017-11-12 13:08:29 871
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人