[Day 40] 區塊鏈與人工智能的聯動應用：理論、技術與實踐-CSDN博客

本文链接：https://blog.csdn.net/2401_83208854/article/details/140810114

強化學習概述

強化學習（Reinforcement Learning, RL）是一種機器學習方法，主要用於訓練智能體（agent）在特定環境（environment）中進行決策。智能體通過嘗試和錯誤來學習，以最大化其累積的獎勵。強化學習的核心思想是利用行動的回饋信息來更新策略（policy），從而優化決策。

核心概念

在強化學習中，有幾個核心概念：

狀態（State, s）：智能體所處的環境狀態。
行動（Action, a）：智能體在特定狀態下可以採取的行動。
獎勵（Reward, r）：智能體執行行動後收到的回饋。
策略（Policy, π）：從狀態到行動的映射，決定智能體在每個狀態下應採取的行動。
價值函數（Value Function, V(s)）：給定狀態下的預期獎勵總和。
動作價值函數（Action-Value Function, Q(s, a)）：給定狀態和行動的預期獎勵總和。

強化學習的應用

強化學習被廣泛應用於各種領域，如：

遊戲AI：訓練AI玩遊戲，例如AlphaGo、Dota 2等。
自動駕駛：通過模擬環境訓練自動駕駛系統。
機器人控制：優化機器人的動作控制策略。
金融交易：優化交易策略以最大化收益。

強化學習的基礎算法

在強化學習中，經典的算法包括Q-Learning和深度Q網絡（Deep Q-Network, DQN）。

Q-Learning

Q-Learning是一種無模型的強化學習算法，用於估計動作價值函數Q(s, a)。它基於貝爾曼方程更新Q值：

$Q(s,a)\leftarrow Q(s,a) + \alpha [r + \gamma _{a}' max Q{({s}'}, {a}') - Q(s,a)]$

這裡， $\alpha$ 是學習率， $\gamma$ 是折扣因子， $r$ 是立即獎勵， ${s}'$ 是執行行動後的下一狀態。

深度Q網絡（DQN）

DQN是Q-Learning的擴展，它利用神經網絡來近似Q函數。這種方法特別適用於狀態空間較大或連續的情況。DQN的基本架構包括一個目標網絡（Target Network）和一個估計網絡（Estimation Network），用來穩定學習過程。

Q-Learning的Python實現

下面是一個簡單的Q-Learning示例，應用於OpenAI Gym中的FrozenLake環境。

import gym
import numpy as np

# 創建FrozenLake環境
env = gym.make('FrozenLake-v1', is_slippery=False)

# 初始化參數
alpha = 0.1  # 學習率
gamma = 0.99  # 折扣因子
epsilon = 0.1  # 探索率
num_episodes = 1000  # 訓練迭代次數

# 初始化Q表
Q = np.zeros((env.observation_space.n, env.action_space.n))

# 訓練Q-Learning算法
for episode in range(num_episodes):
    state = env.reset()
    done = False
    
    while not done:
        # ε-貪婪策略選擇行動
        if np.random.uniform(0, 1) < epsilon:
            action = env.action_space.sample()
        else:
            action = np.argmax(Q[state, :])
        
        # 執行行動，獲取獎勵和下一狀態
        next_state, reward, done, _ = env.step(action)
        
        # 更新Q值
        Q[state, action] = Q[state, action] + alpha * (
            reward + gamma * np.max(Q[next_state, :]) - Q[state, action]
        )
        
        # 更新狀態
        state = next_state

# 輸出訓練後的Q表
print("Trained Q-table:")
print(Q)

代碼解釋

創建環境：gym.make('FrozenLake-v1')創建了FrozenLake環境。這是一個簡單的4x4格子遊戲，目標是從起點移動到目標位置，避開陷阱。
初始化參數：設置學習率（alpha）、折扣因子（gamma）和探索率（epsilon）。這些參數控制了學習的速度、未來獎勵的重視程度和隨機探索的程度。
初始化Q表：Q = np.zeros((env.observation_space.n, env.action_space.n))創建了一個大小為狀態數量乘以行動數量的Q表，並初始化為零。
訓練過程：在每一個訓練迭代中，智能體在環境中進行多次步驟：
- 使用ε-貪婪策略選擇行動：智能體有epsilon的概率隨機選擇行動，否則選擇當前Q值最大的行動。
- 執行行動並獲取回饋：env.step(action)執行選擇的行動並返回下一狀態、獎勵、遊戲是否結束的標誌和附加信息。
- 更新Q值：使用Q-Learning更新公式來更新Q值。
- 更新狀態：將狀態更新為下一狀態。
輸出結果：訓練完成後，打印最終的Q表。

深度Q網絡（DQN）的Python實現

下面是一個DQN的基本實現，使用Keras建立神經網絡來近似Q函數。

import gym
import numpy as np
from keras.models import Sequential
from keras.layers import Dense
from keras.optimizers import Adam
from collections import deque
import random

# 創建FrozenLake環境
env = gym.make('FrozenLake-v1', is_slippery=False)

# 參數設置
state_size = env.observation_space.n
action_size = env.action_space.n
batch_size = 32
n_episodes = 1000
output_dir = 'model_output/'

# 建立DQN網絡
def build_model():
    model = Sequential()
    model.add(Dense(24, input_dim=state_size, activation='relu'))
    model.add(Dense(24, activation='relu'))
    model.add(Dense(action_size, activation='linear'))
    model.compile(loss='mse', optimizer=Adam(lr=0.001))
    return model

# 訓練過程
def train_dqn():
    model = build_model()
    memory = deque(maxlen=2000)
    epsilon = 1.0  # 探索率
    epsilon_decay = 0.995
    epsilon_min = 0.01
    gamma = 0.95  # 折扣因子

    for e in range(n_episodes):
        state = env.reset()
        state = np.reshape(state, [1, state_size])
        done = False
        for time in range(500):
            if np.random.rand() <= epsilon:
                action = env.action_space.sample()
            else:
                action = np.argmax(model.predict(state)[0])
            next_state, reward, done, _ = env.step(action)
            reward = reward if not done else -10
            next_state = np.reshape(next_state, [1, state_size])
            memory.append((state, action, reward, next_state, done))
            state = next_state

            if done:
                print(f"Episode: {e}/{n_episodes}, score: {time}, e: {epsilon:.2}")
                break

            if len(memory) > batch_size:
                minibatch = random.sample(memory, batch_size)
                for state_mb, action_mb, reward_mb, next_state_mb, done_mb in minibatch:
                    target = reward_mb
                    if not done_mb:
                        target = reward_mb + gamma * np.amax(model.predict(next_state_mb)[0])
                    target_f = model.predict(state_mb)
                    target_f[0][action_mb] = target
                    model.fit(state_mb, target_f, epochs=1, verbose=0)

            if epsilon > epsilon_min:
                epsilon *= epsilon_decay

        if e % 50 == 0:
            model.save(output_dir + f"weights_{e:04d}.hdf5")

train_dqn()

代碼解釋

神經網絡模型構建：build_model()函數定義了一個簡單的三層全連接神經網絡，用於近似Q函數。輸出層的節點數等於動作空間的大小，每個節點對應一個行動的Q值。
記憶體初始化：deque(maxlen=2000)用於存儲經驗回放（experience replay），保存最近2000次的狀態轉換。
訓練過程：
- 初始化探索率epsilon，並逐漸衰減。
- 在每個episode中，智能體從隨機初始狀態開始，然後在環境中執行多次步驟。
- 使用ε-貪婪策略選擇行動。
- 執行行動並存儲狀態轉換（狀態、行動、獎勵、下一狀態、是否結束）到記憶體。
- 當結束時，打印episode信息。
- 使用小批量訓練（minibatch training），從記憶體中隨機抽取樣本進行Q網絡更新。
模型保存：每隔50個episode保存一次模型權重。