Q学习——动作选择

最新推荐文章于 2024-02-15 10:35:32 发布

weixinSS

最新推荐文章于 2024-02-15 10:35:32 发布

阅读量532

点赞数 1

分类专栏： MATLAB 文章标签： matlab 贪心算法

本文链接：https://blog.csdn.net/weixinSS/article/details/127507973

版权

MATLAB 专栏收录该内容

2 篇文章 0 订阅

订阅专栏

在Q-Learning中采用的动作选择方法一般为贪婪策略，其原理为以一定的概率在随机选择与当前最大值中选择策略来决定需采取的动作，具体代码如下。

% 贪婪策略选取动作
function action_t=act_rand_select(EPSILON,state, Q, action )
% 读可选行为的个数
    if (rand > EPSILON) %若大于ε，则随机选择一个动作
        action_t = action(randsrc(1,1,randperm(3)));
    else %否则，选择值最大的动作
        index = max(Q(state,:));
        action_t=action(Q(state,:)==index);
        [~,w]=size(action_t);
        if w>1%若有多个可选动作，则随机选择一个
            action_t=action_t(randi(w));
        end
    end
end