ML
喜欢什么的只是说说而已
python
展开
-
时间差分法与Q学习算法
带有离散动作的强化学习问题通常可以建模为马尔可夫决策过程,但如果我们得代理最初不知道转移概率和奖励是多少, 它必须至少经历一次每个状态和每个过渡一次才能知道奖励,并且如果要对过渡概率进行合理的估计,则必须多次经历。翻译 2020-01-16 19:25:35 · 543 阅读 · 0 评论 -
Bellman最优性方程与Q值迭代算法
Bellman找到了一种方法来估计任何状态s的最佳状态值(*),记为V*(s),V*(s)是代理在达到状态s时(假设采取最佳行为)所期望的所有折价未来奖励的总和。 他表明,如果代理能发挥最佳作用,则适用Bellman最优性方程。 这个递归方程式表示,如果主体采取最佳行动,那么当前状态的最优值等于采取一项最佳行动后平均获得的报酬,加上该行动可能导致的所有可能的下一状态的预期最优值。即, V∗(s)=...翻译 2020-01-16 17:01:46 · 1835 阅读 · 0 评论 -
策略梯度—强化算法
构建一个神经网络,输入为观测量,输出为选取每一行为的概率: 首先,让神经网络策略多次参与游戏,然后在每个步骤中计算出使选择的动作更有可能发生的梯度,但暂时不要应用这些梯度。 连续进行几次游戏后,计算每一个动作的优势Vk(a)=∑n=kNRnγn−kV_k(a)=\sum\limits_{n=k}^N{R_n\gamma^{n-k}}Vk(a)=n=k∑NRnγn−k,即采取了动作a后,获得...翻译 2020-01-16 16:11:31 · 122 阅读 · 0 评论 -
高斯混合模型
圆圈代表随机变量 小方块代表固定值(模型参数) 大方框叫做plate,表示他们的内容会被重复 每个plate右下角的数字代表每个plate会被重复的次数。比如m表示这里有m个z(i)(从z(1)到z(m))和m个x(i)。权值向量Φ\PhiΦ是一个k维向量。 每个z(i)由带有权重Φ\PhiΦ的分类分布得出,每个x(i)由它所在的簇z(I)的均值和协方差矩阵所对应的正态分布决定。 实箭头表示条...翻译 2020-01-13 14:53:56 · 366 阅读 · 0 评论