36、预期学习分类器系统中的广义状态值

最新推荐文章于 2025-10-19 15:10:53 发布

浮生若梦622

最新推荐文章于 2025-10-19 15:10:53 发布

阅读量30

点赞数

CC 4.0 BY-SA版权

分类专栏：预期行为：智能的未来文章标签： ACS2 XCS 广义状态值

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/opencv7vision/article/details/153465664

预期行为：智能的未来专栏收录该内容

36 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

预期学习分类器系统中的广义状态值

在机器学习领域，预期学习分类器系统（ACS2）在解决一些问题时展现出了一定的能力，但也存在着一些局限性。本文将深入探讨ACS2中存在的问题，以及如何通过引入广义状态值来改进其性能。

1. 奖励预测与动作选择

奖励预测值 r 会受到一个因素的影响，该因素或多或少地使奖励值偏向未来的强化值。为避免奖励的自我传播或对环境无实际改变的奖励传播，对奖励预测传播的分类器施加了约束，即其效果部分不能完全通用（cl.E ≠ {#}L）。这样，奖励预测值 r 能估计在所有分类器适用的可能情况 σ 中执行动作 A 后，遵循最优策略所获得的平均折扣奖励。

动作选择可以在一定程度上基于奖励预测值 r 进行偏向。通常，ACS2采用简单的 ϵ - 贪心动作选择策略，即以概率 ϵ 随机选择动作，否则选择最佳动作。在匹配集 [M] 中，具有最高 qr 值的分类器的动作通常被视为最佳动作。此外，为了加速模型学习，还引入了额外的动作选择偏向，以概率 pb 选择能带来最高知识增长的动作（以最高平均应用延迟或最低平均质量表示）。

2. 模型别名问题

尽管分类器的奖励预测值所代表的行为策略在解决不同迷宫问题上表现出一定效果，但也会出现所谓的“模型别名”问题。该问题指的是，演化预测模型中的分类器可能过于通用，无法准确指定强化值。也就是说，即使分类器在其条件满足的所有情况下能准确指定感知效果，但其奖励预测值可能不准确。

2.1 简单示例

以四子棋游戏为例，ACS2学习游戏的走法。动作是将硬币放入七个插槽中的任意一个。一段时间后，ACS2可以学习到所有可能动作的效果表示。然而，为了准确预测动作效果，分类器的

会员秒杀 ¥9.9 重磅福利

超级会员免费看

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。