机器学习数学基础
Erick_Lv
菜鸡互啄
展开
-
从条件概率到贝叶斯公式
本文主要是个人对于概率论知识点的回顾。各个公式的没有使用严格的数学推导,而是使用了更加形象的图模型来说明原创 2019-02-16 16:24:14 · 797 阅读 · 0 评论 -
概率密度随笔
本文主要复习了概率密度的意义,同时回顾一些基础性质。对于高级的性质请参考手册,在这里不进行证明与说明原创 2019-02-16 17:36:14 · 420 阅读 · 0 评论 -
随机变量的数字特征
期望离散型:E(X)=∑k=1+∞xkpkE(X)=\sum_{k=1}^{+\infty}x_kp_kE(X)=k=1∑+∞xkpk连续型:E(X)=∫−∞+∞xf(x)dxE(X)=\int_{-\infty}^{+\infty}xf(x)dxE(X)=∫−∞+∞xf(x)dx若Y=g(X)Y=g(X)Y=g(X),其中ggg是连续函数,则如果XXX是连续型:E(...原创 2019-02-16 20:51:31 · 1249 阅读 · 0 评论 -
最大似然估计
首先,要明确最大似然估计的作用。最大似然估计是用来估计参数的,是在已知所有样本数据和样本数据的分布形式的情况下,来估计分布的具体参数的。举个例子,我们知道有数据(x1,y1),(x2,y2),⋯(x100,y100)(x_1,y_1),(x_2,y_2),\cdots (x_100,y_100)(x1,y1),(x2,y2),⋯(x100,y100)这100组数据满足y=ax+by=a...原创 2019-02-16 21:12:52 · 990 阅读 · 0 评论 -
随机过程简介
随机过程的基本概念随机变量回顾在进入随机过程之前,先复习一下随机变量,这也是初学概率论时经常搞不明白的地方。个人认为,数学最本质的特征是抽象,也就是说一切事物都可以通过某种法则映射到数上,然后再来通过讨论数的关系,来描述事物的关系。再具体到概率论中,我们讨论一些事物的发生可能性,并把所有的可能性构成的集合称为样本空间,比如掷骰子的可能结果是{1,2,3,4,5,6}\{1,2,3,4,5,6...原创 2019-02-17 15:56:19 · 28174 阅读 · 0 评论 -
强化学习数学基础1---Policy Gradient
强化学习基础数学基础1这篇笔记由李宏毅老师的强化学习公开课整理而来强化学习的基本步骤:Step 1:定义一个Neural Network作为一个ActorStep 2:定义评估函数,有些评估函数可能也是一个策略网络Step 3:选择或者训练出一个最佳的函数作为Actor和评估函数强化的学习的Actor是一个Neural Network,把环境作为输入,输出的是当前环境下所有选择的概...原创 2019-04-06 15:45:46 · 604 阅读 · 0 评论 -
强化学习的数学基础2---PPO算法
强化学习的数学基础2—PPO系列算法这篇笔记来自于李宏毅老师的公开课PPO算法全称是Proximal Policy Optimization算法。该类算法是为了解决Policy Gradient算法速度慢的问题。先给出两个学习的概念:On-Policy学习:学习的Agent和与环境互动的Agent是同一个。可以理解为Agent一边互动一边学习。Off-Policy学习:学习的Agent...原创 2019-04-06 17:58:37 · 4356 阅读 · 1 评论 -
强化学习的数学基础3---Q-Learning
Q-Learning基础基础知识在之前的笔记关于Policy Gradient和PPO方法中,需要学习的是某个策略π\piπ。给定出一个策略网络π\piπ,然后令计算机通过不断地训练策略网络,来实现智能。训练的过程中,更新迭代的也是策略网络的参数。而Q-Learning中,不是直接训练策略网络π\piπ,而是给学习一个Crtic,该Critic用于评估Agent做出的每个选择的评估值。...原创 2019-04-07 11:38:38 · 1048 阅读 · 0 评论 -
强化学习的数学基础4---Q-Learning进阶
Asynchronous Advantage Actor-Critic (A3C)回顾Policy Gradient的梯度参数:∇Rˉθ≈1N∑n=1N∑t=1Tn(∑t′=tTnrt′−trt′n−b)∇logpθ(atn∣stn)\nabla \bar{R}_{\theta}\approx \frac{1}{N}\sum_{n=1}^{N}\sum_{t=1}^{T_n}\left(\...原创 2019-04-07 14:04:53 · 656 阅读 · 0 评论