强化学习：Q-Learning

~hello world~

已于 2022-12-29 22:50:13 修改

阅读量475

点赞数 1

分类专栏：强化学习文章标签：算法

于 2022-12-29 13:23:34 首次发布

本文链接：https://blog.csdn.net/qq_50086023/article/details/128473605

版权

强化学习专栏收录该内容

14 篇文章 27 订阅

订阅专栏

1、Q-Learning 引言

Q-learning 是强化学习中一个很有名的算法。Q-learning 其实是一个决策过程，以小孩写作文为例，小时候爸妈常说 ”不写完作业就不准看电视”。假设，现在小孩处于写作业的状态，接下来小孩有两种选择： 1、继续写作业，2、跑去看电视。如果小孩报着侥幸心理选择看电视，那么小孩现在的状态变成了看电视，然后又选则继续看电视，最后爸妈回家发现小孩没写完作业就去看电视，就狠狠地惩罚了小孩一次，这次惩罚让小孩在脑海中将 “没写完作业就看电视” 这种行为看作负面行为。相反，若小孩一开始就选择写作业，那么当爸妈回家发现小孩写完作业，就给了小孩糖果，则这次奖励让小孩在脑海中将 “写作业” 这种行为看作正面行为。所以小孩把写作业看成是好的行为，执行好的行为会得到奖励；相反，没写完作业就去看电视则被看成不好的行为，执行不好的行为被爸妈发现会被惩罚。

2、Q-Learning 决策

现在，我们来看看 Q-learning 是如何根据上述经历来决策的吧。
在这里插入图片描述
如上图，假设小孩现在处于写作业的状态 s1，接下来小孩有两个行为 a1，a2，分别是看电视和写作业，根据经验可知在 s1 状态下, a2 写作业带来的潜在奖励要比 a1 看电视高，这里的潜在奖励用一个有关于 s 和 a 的 Q 表格代替。在 Q 表格中, Q(s1, a1)=-2 要小于 Q(s1, a2)=1, 所以小孩选择 a2 作为下一个行为。
现在小孩的状态更新成 s2 , 小孩还是有两个同样的选择，重复前面的过程，在行为准则 Q 表中寻找 Q(s2, a1) ，Q(s2, a2) 的值，比较后选取较大的一个，即选择 a2 小孩到达 s3 并在此重复上述的决策过程。这就是Q-learning 的方法的决策的过程。

3、Q-Learning 更新

那么，Q-Learning中的行为准则 Q 是通过什么方式更改和提升的呢？
在这里插入图片描述
在决策的流程中，根据 Q 表中各值的比较，在状态 s1 后采取了 a2, 并到达状态 s2，这时我们便开始更新用于决策的 Q 表。实际上，我们并没有采取任何行为，而是想象自己在状态 s2 后采取了每种行为并分析哪一种行为的 Q 值大，所以我们把大的 Q(s2, a2) 乘上一个衰减值 $\gamma$ (比如是0.9) 并加上到达 s2 时所获取的奖励 R。
我们将奖励 R 作为我现实中 Q(s1, a2) 的值, 但是我们之前是根据 Q 表估计 Q(s1, a2) 的值，现在有了现实和估计值，就能更新Q(s1, a2) 。根据估计与现实的差距，将这个差距乘以一个学习效率 $\alpha$ ，再累加上老的 Q(s1, a2) 的值变成新的值。但时刻记住，我们虽然用 maxQ(s2) 估算了一下 s2 状态，但还没有在 s2 做出任何的行为，s2 的行为决策要等到更新完了以后再重新另外做。这就是 Q-learning 决策和学习优化决策的过程。
Q-Learning 更新可以参考这篇博客：A Painless Q-learning Tutorial (一个 Q-learning 算法的简明教程)

4、Q-Learning 整体算法

在这里插入图片描述
上图概括了 Q-learning 的算法。每次更新都用到了 Q 现实和 Q 估计，而且 Q-learning 在 Q(s1, a2) 现实中也包含了一个 Q(s2) 的最大估计值，将对下一步的衰减的最大估计和当前所得到的奖励当成这一步的现实。
最后，我们来说说算法中一些参数的意义。 $\epsilon$ 是用在决策上的一种策略，比如 $\epsilon$ = 0.9 时，就说明有90% 的情况我会按照 Q 表的最优值选择行为，10% 的时间使用随机选行为； $\alpha$ 是学习率，来决定这次的误差有多少是要被学习的； $\gamma$ 是对未来 reward 的衰减值。

5、Q-Learning 实例

import numpy as np
import pandas as pd
import time

np.random.seed(2)  # reproducible


N_STATES = 8   # the length of the 1 dimensional world
ACTIONS = ['left', 'right']     # available actions
EPSILON = 0.9   # greedy police
ALPHA = 0.1     # learning rate
GAMMA = 0.9    # discount factor
MAX_EPISODES = 13   # maximum episodes
FRESH_TIME = 0.3    # fresh time for one move


def build_q_table(n_states, actions):
    table = pd.DataFrame(
        np.zeros((n_states, len(actions))),     # q_table initial values
        columns=actions,    # actions's name
    )
    # print(table)    # show table
    return table


def choose_action(state, q_table):
    # This is how to choose an action
    state_actions = q_table.iloc[state, :]
    if (np.random.uniform() > EPSILON) or ((state_actions == 0).all()):  # act non-greedy or state-action have no value
        action_name = np.random.choice(ACTIONS)
    else:   # act greedy
        action_name = state_actions.idxmax()    # replace argmax to idxmax as argmax means a different function in newer version of pandas
    return action_name


def get_env_feedback(S, A):
    # This is how agent will interact with the environment
    if A == 'right':    # move right
        if S == N_STATES - 2:   # terminate
            S_ = 'terminal'
            R = 1
        else:
            S_ = S + 1
            R = 0
    else:   # move left
        R = 0
        if S == 0:
            S_ = S  # reach the wall
        else:
            S_ = S - 1
    return S_, R


def update_env(S, episode, step_counter):
    # This is how environment be updated
    env_list = ['-']*(N_STATES-1) + ['T']   # '---------T' our environment
    if S == 'terminal':
        interaction = 'Episode %s: total_steps = %s' % (episode+1, step_counter)
        print('\r{}'.format(interaction), end='')
        time.sleep(2)
        print('\r                                ', end='')
    else:
        env_list[S] = 'o'
        interaction = ''.join(env_list)
        print('\r{}'.format(interaction), end='')
        time.sleep(FRESH_TIME)


def rl():
    # main part of RL loop
    q_table = build_q_table(N_STATES, ACTIONS)
    for episode in range(MAX_EPISODES):
        step_counter = 0
        S = 0
        is_terminated = False
        update_env(S, episode, step_counter)
        while not is_terminated:

            A = choose_action(S, q_table)
            S_, R = get_env_feedback(S, A)  # take action & get next state and reward
            q_predict = q_table.loc[S, A]
            if S_ != 'terminal':
                q_target = R + GAMMA * q_table.iloc[S_, :].max()   # next state is not terminal
            else:
                q_target = R     # next state is terminal
                is_terminated = True    # terminate this episode

            q_table.loc[S, A] += ALPHA * (q_target - q_predict)  # update
            S = S_  # move to next state

            update_env(S, episode, step_counter+1)
            step_counter += 1
    return q_table


if __name__ == "__main__":
    q_table = rl()
    print('\r\nQ-table:\n')
    print(q_table)