机器学习——基础概念三：强化学习、进化算法

最新推荐文章于 2025-04-16 11:30:00 发布

__Limits

最新推荐文章于 2025-04-16 11:30:00 发布

阅读量3.1k

点赞数

分类专栏：机器学习文章标签： ML

本文链接：https://blog.csdn.net/qq_41821116/article/details/90273272

版权

机器学习专栏收录该内容

3 篇文章

订阅专栏

文章目录

强化学习,Reinforcement Learning
一周总结：
下周打算：
进化算法

强化学习,Reinforcement Learning

强化学习概念

什么是强化学习？让机器自己独立面对一个问题，从什么都不懂，自己慢慢摸索，到最后掌握解决问题的办法。

强化学习具有高分导向性，和监督学习中的标签有些类似。但是又有些区别，区别就在于数据和标签一开始都不存在，需要模型自己来不断摸索。通过不断尝试，找到那些能带来高分的行为。
强化学习包含很多算法：

使用表格学习的 Q learning, sarsa
使用神经网络学习的 deep q network
还有直接输出行为的 policy gradients
又或者了解所处的环境, 想象出一个虚拟的环境并从虚拟的环境中学习

强化学习方法汇总

不理解环境： Q learning, Sarsa, Policy Gradients。只能被动接受真实环境带来的反馈，按部就班采取行动。
理解环境：先理解真实世界是什么样的，建立一个模型模拟现实世界的反馈。能想象环境将要发生什么。

基于概率：Policy Gradients。根据感官分析所处的环境，直接输出下一步要采取动作的概率，根据概率采取行动。即使某个动作概率最高，也不一定会做出这个选择。
基于价值：Q learning, Sarsa。选择各种动作中价值最高的，更为果断。
结合两者：Actor-Critic。Actor根据概率做出动作，Critic对动作给出价值评分。

回合更新：Monte-carlo learning 和基础版的 policy gradients。想象是在玩游戏。这个学习方法就是一局游戏完了，然后回过头来总结这一局游戏自己学到了什么。
单步更新：Qlearning, Sarsa, 升级版的 policy gradients 。在游戏的每一步中都在不断更新自己的行为准则。更有效率，现在大多方法都是基于单步更新。

在线学习：Sarsa，Sarsa lambda。必须得自己在场学习
离线学习：Q learning。Deep-Q-Network。可以看别人学习，转化为自己的经验。也可以自己白天玩后，存下来记忆晚上学习。

Q Learning

莫凡Python里，这是第一个我需要0.5倍速播放的视频。。。。

一周总结：

这周的计划到周五没有完成。上周计划看完莫凡Python的这个视频，这周只完成了一半。一方面，这周要准备考试，要写实验报告，好多事；另一方面，没有拿出来零碎的时间来学习。如果能抽出更多零碎时间来学这个视频，也许这周就能完成上周的计划了。
视频看到强化学习部分，现在学习到了QLearning了。虽然仍然是在了解相关基础概念，但这个视频还是看得我晕头转向的，不知莫凡所云☁️。看来有挑战的部分来了。
看视频的过程中我也发现了，在学校的理论课的知识用上了。这还只是在介绍概念，如果真的开始研究算法了，相信没有深厚数学功底，会很难吃得消。所以数学基础课我一定得学好。

下周打算：

看完莫凡Python有趣的机器学习剩余部分。
2019-05-17 21:24:13

进化算法

遗传算法

达尔文的遗传理论被搬到了计算机里，用某些规则模拟DNA，繁衍、变异等生物过程，适者生存，不适者被淘汰。
在这里插入图片描述

进化策略Evolution Strategy

变异：用正态分布产生稍微不同的参数，一点一点让神经网络的函数发生变化。甚至变异的强度遗传给子代的时候也能发生变异，这样就能让模型一代一代发生变化，产生更强的模型了。
在这里插入图片描述

神经网络的进化Neuro-Evolution

遗传算法：让两个神经网络交叉配对，产生子神经网络，让子神经网络变异，适者生存挑选出优秀的子代
进化策略:更偏向于固定神经网络的结构，然后生出许多和原始结构相同，但各个神经元的连接强度不同的结构，再综合这些所有的子代的连接参数，得到最优的子代。
梯度收敛——进化收敛:梯度收敛相当于给定了参数的位置，有了参数的函数，只需要按照梯度的方向改变参数就好，收敛速度回很快。进化收敛就不同了，会在这个函数中产生许多不同位置的点，找到较优的，重复进行这个过程，这样可能收敛速度回很快比较慢，但是能有效避免局部最优。
在这里插入图片描述