强化学习：多臂老虎机python实现

我还有点头发

于 2024-03-22 15:35:35 发布

阅读量410

点赞数 9

分类专栏： RL 文章标签： python 开发语言

本文链接：https://blog.csdn.net/qq_47438023/article/details/136942721

版权

RL 专栏收录该内容

3 篇文章 0 订阅

订阅专栏

在学习这个代码的时候多臂老虎机 (boyuai.com)，总觉得源代码有点重复，为什么要定义一个Solver之后再定义一个贪心的解决Solver，后面理解其他是它要讲三种方法，所以先把基础的方法定义在一个类里面。

我将其转化合并成了一个类，代码如下：

# 导入需要使用的库,其中numpy是支持数组和矩阵运算的科学计算库,而matplotlib是绘图库
import numpy as np
import matplotlib.pyplot as plt


class BernoulliBandit:
    """ 伯努利多臂老虎机,输入K表示拉杆个数 """
    def __init__(self, K):
        self.probs = np.random.uniform(size=K)  # 随机生成K个0～1的数,作为拉动每根拉杆的获奖
        # 概率
        self.best_idx = np.argmax(self.probs)  # 获奖概率最大的拉杆
        self.best_prob = self.probs[self.best_idx]  # 最大的获奖概率
        self.K = K

    def step(self, k):
        # 当玩家选择了k号拉杆后,根据拉动该老虎机的k号拉杆获得奖励的概率返回1（获奖）或0（未
        # 获奖）
        if np.random.rand() < self.probs[k]:
            return 1
        else:
            return 0


np.random.seed(0)  # 设定随机种子,使实验具有可重复性
K = 10
bandit_10_arm = BernoulliBandit(K)
# print("随机生成了一个%d臂伯努利老虎机" % K)
# print("获奖概率最大的拉杆为%d号,其获奖概率为%.4f" %
#       (bandit_10_arm.best_idx, bandit_10_arm.best_prob))

class EpsilonGreedy_agent:

    def __init__(self, bandit,epsilon=0.01, init_prob=1.0):
        self.bandit = bandit
        self.counts = np.zeros(self.bandit.K)  # 每根拉杆的尝试次数
        self.regret = 0.  # 当前步的累积懊悔
        self.actions = []  # 维护一个列表,记录每一步的动作
        self.regrets = []  # 维护一个列表,记录每一步的累积懊悔
        self.epsilon = epsilon
        #初始化拉动所有拉杆的期望奖励估值
        self.estimates = np.array([init_prob] * self.bandit.K)

    def choose_action(self):  #这里其实就是choose action
        if np.random.random() < self.epsilon:
            k = np.random.randint(0, self.bandit.K)  # 随机选择一根拉杆
        else:
            k = np.argmax(self.estimates)  # 选择期望奖励估值最大的拉杆
        return k

    def update_regret(self, k):
        # 计算累积懊悔并保存,k为本次动作选择的拉杆的编号
        self.regret += self.bandit.best_prob - self.bandit.probs[k]
        self.regrets.append(self.regret)

    def update_estimate(self,k):
        r = self.bandit.step(k)  # 得到本次动作的奖励
        self.estimates[k] += 1. / (self.counts[k] + 1) * (r - self.estimates[k])

    def run(self, num_steps):
        # 运行一定次数,num_steps为总运行次数
        for _ in range(num_steps):
            k = self.choose_action()
            self.update_estimate(k)
            self.counts[k] += 1
            self.actions.append(k)
            self.update_regret(k)


def plot_results(solvers, solver_names):
    """生成累积懊悔随时间变化的图像。输入solvers是一个列表,列表中的每个元素是一种特定的策略。
    而solver_names也是一个列表,存储每个策略的名称"""
    for idx, solver in enumerate(solvers):
        time_list = range(len(solver.regrets))
        plt.plot(time_list, solver.regrets, label=solver_names[idx])
    plt.xlabel('Time steps')
    plt.ylabel('Cumulative regrets')
    plt.title('%d-armed bandit' % solvers[0].bandit.K)
    plt.legend()
    plt.show()



np.random.seed(0)
epsilons = [1e-4, 0.01, 0.1, 0.25, 0.5]
epsilon_greedy_solver_list = [
    EpsilonGreedy_agent(bandit_10_arm, epsilon=e) for e in epsilons
]
epsilon_greedy_solver_names = ["epsilon={}".format(e) for e in epsilons]
for agent in epsilon_greedy_solver_list:
    agent.run(5000)

plot_results(epsilon_greedy_solver_list, epsilon_greedy_solver_names)

更改的思路是，把老虎机看做state，有step就是交互，把策略看做agent，agent需要有选择动作的策略、更新策略参数，所以通过这样理思路就可以很好的写出来，那个run感觉也可以写在外边，小白只达到如此水平。

以上谨是记录学习过程

我还有点头发

关注

9
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
强化学习：多臂老虎机python实现

更改的思路是，把老虎机看做state，有step就是交互，把策略看做agent，agent需要有选择动作的策略、更新策略参数，所以通过这样理思路就可以很好的写出来，那个run感觉也可以写在外边，小白只达到如此水平。，总觉得源代码有点重复，为什么要定义一个Solver之后再定义一个贪心的解决Solver，后面理解其他是它要讲三种方法，所以先把基础的方法定义在一个类里面。在学习这个代码的时候。以上谨是记录学习过程。
复制链接

扫一扫