机器学习——基础概念三:强化学习、进化算法

强化学习,Reinforcement Learning

强化学习概念

什么是强化学习?让机器自己独立面对一个问题,从什么都不懂,自己慢慢摸索,到最后掌握解决问题的办法。

强化学习具有高分导向性,和监督学习中的标签有些类似。但是又有些区别,区别就在于数据和标签一开始都不存在,需要模型自己来不断摸索。通过不断尝试,找到那些能带来高分的行为。
强化学习包含很多算法:

  • 使用表格学习的 Q learning, sarsa
  • 使用神经网络学习的 deep q network
  • 还有直接输出行为的 policy gradients
  • 又或者了解所处的环境, 想象出一个虚拟的环境并从虚拟的环境中学习

强化学习方法汇总

不理解环境: Q learning, Sarsa, Policy Gradients。只能被动接受真实环境带来的反馈,按部就班采取行动。
理解环境:先理解真实世界是什么样的,建立一个模型模拟现实世界的反馈。能想象环境将要发生什么。

基于概率:Policy Gradients。根据感官分析所处的环境,直接输出下一步要采取动作的概率,根据概率采取行动。即使某个动作概率最高,也不一定会做出这个选择。
基于价值:Q learning, Sarsa。选择各种动作中价值最高的,更为果断。
结合两者:Actor-Critic。Actor根据概率做出动作,Critic对动作给出价值评分。

回合更新:Monte-carlo learning 和基础版的 policy gradients。想象是在玩游戏。这个学习方法就是一局游戏完了,然后回过头来总结这一局游戏自己学到了什么。
单步更新:Qlearning, Sarsa, 升级版的 policy gradients 。在游戏的每一步中都在不断更新自己的行为准则。更有效率,现在大多方法都是基于单步更新。

在线学习:Sarsa,Sarsa lambda。必须得自己在场学习
离线学习:Q learning。Deep-Q-Network。可以看别人学习,转化为自己的经验。也可以自己白天玩后,存下来记忆晚上学习。

Q Learning

莫凡Python里,这是第一个我需要0.5倍速播放的视频。。。。


一周总结:

这周的计划到周五没有完成。上周计划看完莫凡Python的这个视频,这周只完成了一半。一方面,这周要准备考试,要写实验报告,好多事;另一方面,没有拿出来零碎的时间来学习。如果能抽出更多零碎时间来学这个视频,也许这周就能完成上周的计划了。
视频看到强化学习部分,现在学习到了QLearning了。虽然仍然是在了解相关基础概念,但这个视频还是看得我晕头转向的,不知莫凡所云☁️。看来有挑战的部分来了。
看视频的过程中我也发现了,在学校的理论课的知识用上了。这还只是在介绍概念,如果真的开始研究算法了,相信没有深厚数学功底,会很难吃得消。所以数学基础课我一定得学好。

下周打算:

看完莫凡Python有趣的机器学习剩余部分。
2019-05-17 21:24:13

进化算法

遗传算法

达尔文的遗传理论被搬到了计算机里,用某些规则模拟DNA,繁衍、变异等生物过程,适者生存,不适者被淘汰。
在这里插入图片描述
在这里插入图片描述

进化策略Evolution Strategy

变异:用正态分布产生稍微不同的参数,一点一点让神经网络的函数发生变化。甚至变异的强度遗传给子代的时候也能发生变异,这样就能让模型一代一代发生变化,产生更强的模型了。
在这里插入图片描述

神经网络的进化Neuro-Evolution

遗传算法:让两个神经网络交叉配对,产生子神经网络,让子神经网络变异,适者生存挑选出优秀的子代
进化策略:更偏向于固定神经网络的结构,然后生出许多和原始结构相同,但各个神经元的连接强度不同的结构,再综合这些所有的子代的连接参数,得到最优的子代。
梯度收敛——进化收敛:梯度收敛相当于给定了参数的位置,有了参数的函数,只需要按照梯度的方向改变参数就好,收敛速度回很快。进化收敛就不同了,会在这个函数中产生许多不同位置的点,找到较优的,重复进行这个过程,这样可能收敛速度回很快比较慢,但是能有效避免局部最优。
在这里插入图片描述


第一次编辑:2019-05-16 22:04:40

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值