BravaCristina-CSDN博客

原创 MDP

POMDP模型：状态不完全可见，考虑动作。即不完全可观察马尔可夫决策过程基本概念：一个马尔可夫决策过程由一个四元组构成M = (S, A, Psa, R) 立即回报函数r(s,a)无法说明策略的好坏。因而需要定义值函数(value function，又叫效用函数)来表明当前状态下策略π的长期影响。是值函数最常见的形式，式中γ∈[0,1]称为折合因子，表明了未来的回报相

2017-11-15 14:50:12 2741

原创《用python进行数据分析》语法要点总结（2）

movielens小程序（1）打开dat文件，用pd.read_table，说明分隔符是：：（2）pd.merge的默认设置 data = pd.merge(pd.merge(ratings, users),movies)#pd根据列推断出来怎么合并没有指定连接键，默认用重叠列名，没有指定连接方式（3）sort_by_diff[::-1][:10]#对结果取反，男性最喜欢的电影

2017-11-13 14:04:11 298

原创《用python进行数据分析》语法要点总结（1）

baby_name 小程序（1）将不同的文件链接起来 frame存放不同的csv文件，给frame添加新的year列，append到piece上，最后用pd.concat将存放多个序列的piece链接，默认axis=0，行链接，就是纵向拼接（2）添加出生比例prop，先定义一个add函数，记得将数据类型转化为float再求和并做除法。再names这个df上调用add函数，记得先按照year

2017-11-13 13:48:31 432

原创 ActorCritic学习笔记

Part1 策略梯度算法在学习AC之前必须了解一下Policy Gradients算法（PG)。PG是建立在Policy Network之上的，这是一个神经网络，输入时状态，输出直接是动作（Q值）。 a=π(s,θ)a = \pi(s,\theta) 也可以输出概率，这样输出更通用:a=π(a|s,θ)a = \pi(a|s,\theta) 更新网络参数的依据就是最大化reward函数的累加：

2017-11-12 13:08:29 871

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

原创 MDP

原创 《用python进行数据分析》语法要点总结（2）

原创 《用python进行数据分析》语法要点总结（1）

原创 ActorCritic学习笔记

空空如也

空空如也

原创《用python进行数据分析》语法要点总结（2）

原创《用python进行数据分析》语法要点总结（1）