浅谈增强学习

最新推荐文章于 2024-05-23 17:11:24 发布

Ron_Tang

最新推荐文章于 2024-05-23 17:11:24 发布

阅读量1.3w

点赞数 2

分类专栏： algorithm C/C++ 文章标签： AI Qlearning 机器学习增强学习

本文链接：https://blog.csdn.net/zjq2008wd/article/details/52860654

版权

C/C++ 同时被 2 个专栏收录

64 篇文章 0 订阅

订阅专栏

algorithm

22 篇文章 0 订阅

订阅专栏

前言

这篇文章就是浅谈一下机器学习领域下的增强学习。为什么博文的题目为浅谈，因为笔者对机器学习的认知比较浅。

我在最后会分享一个Q算法的C++代码，该例子体现了如何用Q 算法学习迷宫寻路。读者可参考我上一篇转载博文给出的例子进行学习。

增强学习简介

增强学习，即有机体如何在环境给予的奖励或惩罚的刺激下，逐步形成对刺激的预期，产生能获得最大利益的习惯性行为。这个方法具有普适性，因此在其他许多领域都有研究。

就以下围棋为例，假设某个确定棋局下，该棋局记为S，AI下了一手棋之后，该手棋记为A，之后两方随机乱下，直到分出输赢，输了扣一分，赢了加一分。再次回到S棋局，AI再次下A手棋，之后两方随机乱下，直到分出输赢，输了扣一分，赢了加一分。如此往复，直到需要停止时再停止。最后统计出的分数即可认为在S棋局下，下A手棋的分数。关键词语是N多把，下的盘数越多输赢的分数结果就越可信，大数定律。

比如某一确定棋局下AI下了一手必杀棋，那么之后两方随机乱下N多把后，必杀棋的分数是N，而其他普通棋必然小于N，而臭棋的分数往往小于0，必死棋的分数也就是-N。

AI在遇到某一确定棋局时，下棋时只要选择得分最高的一手棋即可，下棋时AI甚至无需思考。

epsilon greed

补充一点内容，学习总是漫无方向，两方总是随机乱下也不见得是件好事。介绍一下epsilon greed. epsilon greed说起来比较简单，就是以epsilon 概率随机选取行动，以1- epsilon 概率选取目前已知最优的行动。以下围棋为例，就是当面临某一特定棋局S时，以epsilon 的概率随机的下一手棋，或以1- epsilon 的概率下一手当前积分最高的棋。

epsilon 贪心策略选择了那个行动，那个行动的分数就会被更新。这个策略体现出一种权衡，对于探索（学习）方向的权衡。也就是继续学习没有下过的棋，随机探索然后更新分值，还是继续深入研究哪些目前评估最好的棋，选取最佳然后更新分值，看看他是否更好。随着学习的不断深入，epsilon 的值可以变得越来越小，学习的方式从充分探索转为深入的专研。