- 博客(6)
- 收藏
- 关注
原创 关于信息熵的指标
信息熵信息论中的熵,又叫信息熵,用来衡量一个随机变量的不确定程度。熵越大,不确定性越大。 H(X)=E[I(xi)]=−∑n−1NP(xi)log(P(xi))H(X)=E[I(xi)]=−∑n−1NP(xi)log(P(xi))H(X)=E[I(x_i)]=-\sum_{n-1}^NP(x_i)log(P(x_i))交叉熵如果一个随机变量X服从p(x)分布,q(x)用于近似p(x)...
2018-07-31 15:07:01 5659
原创 强化学习之无模型方法一:蒙特卡洛
无模型方法(model-free)无模型方法是学习方法的一种,MDPs中如果P,R未知,则用无模型方法。该方法需要智能体与环境进行交互(交互的方式多样),一般采用样本备份,需要结合充分的探索。 由于未知环境模型,则无法预知自己的后继状态和奖励值,通过与环境进行交互然后观察环境返回的值。本质上从概率分布Pass′Pss′aP_{ss^{'}}^a和RasRsaR_s^a中进行采样。对于随机变量...
2018-07-30 17:23:03 6661
原创 强化学习之动态规划
动态规划(Dynamic Propramming)当一个精确的环境模型时,可以用动态规划去解决。总体来说,就是将一个问题分解成子问题,通过解决子问题来解决原问题。动态指针对序列问题,规划指优化,找到策略。 动态规划解决的问题具备两种性质:最优子结构 满足最优性原理最优的解可以被分解成子问题的最优解交叠式子问题 子问题能够被多次重复子问题的解要能够被缓存并再利用MDPs满...
2018-07-26 16:33:48 3746
转载 【强化学习】MDP案例
【机器人寻找金子案例】强化学习类文件grid_mdp.pyimport loggingimport numpyimport randomfrom gym import spacesimport gymlogger = logging.getLogger(__name__)class GridEnv(gym.Env): metadata = { 're...
2018-07-26 10:58:15 2391
原创 强化学习之马尔科夫过程
马尔可夫过程马尔可夫决策过程(Markov Decision Processes,MDPs)是对强化学习问题的数学描述。几乎所有的RL问题都能用MDPs来表述:最优控制问题可以描述为连续MDPs部分观测环境可以转化成POMDPs赌博机问题是只有一个状态的MDPs本文中介绍的MDPs是在全观测的环境下进行的!马尔科夫性如果在t时刻的状态StStS_t满足如下等式,那么...
2018-07-25 18:03:44 4886
原创 强化学习之概述
什么是强化学习? 面向智能体的学习–通过与一个环境进行交互来实现目标 通过试错和优化进行学习–用试错后的奖励(或惩罚)进行学习 强化学习 vs 其他机器学习机器学习监督学习:有即时标签的学习(如分类,回归等) 监督学习要求带标签的数据,这些数据是比较昂贵的 标注数据也是一门学问非监督学习:无标签学习(聚类问题等) 无标签数据的数量非常...
2018-07-23 15:40:47 5526 1
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人