【强化学习】

money_yuan

于 2018-11-23 18:20:31 发布

阅读量262

点赞数

分类专栏： AI

AI 专栏收录该内容

60 篇文章

订阅专栏

1、强化学习概貌

强化学习是机器学习中的一个子分支，基本上完全模拟了婴儿学习认知世界的过程，在state执行了一定的action之后开始给予一定的reward，计算机总是尝试获取高分，在不断的尝试之后state会从历史的经验里面找到能获得最高分的action。

强化学习具有分数导向性，这个分数导向性和监督学习中的标签类似

2、强化学习分类

2.1算法级别分类

分类主要还是通过他们的算法进行分类，这句话说错了，因为强化学习就是一种算法

2.2理解环境和不理解环境

将算法处理的情景分为两类：理解环境和不理解环境

modle-free的常见算法是Q learning\Sarsa\Policy Gradients,实际上觉得Deep Q Network也应该属于module free一类，实际上

Q-learning、policy gradients、sanra这些也会使用。

modle base会根据想象获取最优值

2.3基于概率和基于价值

不一定选择概率最高的，但基于价值的选择算法更加爱铁定，一定会选择价值最高的。

基于价值的选择解决离散的问题是无能为力的，但是基于概率的是可以实现的。

2.4单步更新和回合更新

再来说说方法, Monte-carlo learning 和基础版的 policy gradients 等都是回合更新制, Qlearning, Sarsa, 升级版的 policy gradients 等都是单步更新制. 因为单步更新更有效率, 所以现在大多方法都是基于单步更新. 比如有的强化学习问题并不属于回合问题.

2.5在线和离线学习

在线学习一定是自己去学习，离线学习可以自己玩也可以学习别人的经验

最典型的在线学习就是 Sarsa 了, 还有一种优化 Sarsa 的算法, 叫做 Sarsa lambda, 最典型的离线学习就是 Q learning, 后来人也根据离线学习的属性, 开发了更强大的算法, 比如让计算机学会玩电动的 Deep-Q-Network.

3、其余知识

tensorflow\carr\caffe他都属于是深度学习的一些典型的模块，但是强化学习他实际上没有这些模块。

1、numpy、pandas数据处理

2、Tkinter或者gym来模拟程序

3、Matplotlib

4、Tensorflow，神经网络和强化学习结合

博客等级

码龄9年

80
原创

148
点赞

744
收藏

102
粉丝

关注

私信

热门文章

分类专栏

展开全部收起

上一篇：: Python 最小二乘法多项式拟合曲线numpy.polyfit(),numpy.poly1d(),pylab

下一篇：: 【numpy】【pandas】

最新评论

【RL从入门到放弃】【二十四】
weixin_43653413: 求问： observation = observation[np.newaxis, :] 这句报错： TypeError: tuple indices must be integers or slices, not tuple
tensorflow中的“tf.name_scope()”有什么用？
一叶知秋523: 讲得很好！
【内核调度、负载计算】【WALT】【walt_update_task_ravg】
阳天_: update_task_demand的讲解链接没了
【负载均衡、负载计算】【propagate_entity_load_avg】
St0pH@CK: 有个问题需要请教一下，在update_tg_cfs_util中计算gcfs_rq和gse中记录的util差异的方法如下： delta = gcfs_rq->avg.util_avg - se->avg.util_avg; 我的理解是： a) gcfs_rq中记录的util信息，只有在gcfs_rq->curr !=NULL时才会统计，即这个group中某个任务正在运行时才会统计 b) gse中记录的util信息，只有在cfs_rq->curr == gse时才会统计，也就是说这个group的gse被pick运行时，也就是说group中某个任务正在运行所以我认为上面gcfs_rq和gse中记录的util信息是一样的，那么什么时候才会存在gcfs_rq和gse的util信息存在差异呢？具体对应什么样的场景呢？
数组只能在初始化时整体赋初值。以后再赋值只能逐一改变了
jv0_1_1_0_1: 这个没有错吧，动态初始化，后面的[] 不能书写数组长度啊

大家在看

vs2022中scanf()函数的用法

最新文章

目录

展开全部

收起

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。