深度學習筆記10-使用VGG-16識別貓狗Part 2(Tensorflow)

最新推荐文章于 2024-10-19 19:31:58 发布

濃縮凍橘汁

最新推荐文章于 2024-10-19 19:31:58 发布

阅读量555

点赞数 15

文章标签： tensorflow 人工智能 python

本文链接：https://blog.csdn.net/Yetta_Chang/article/details/139162289

版权

前言

🍨 本文為🔗365天深度學習訓練營中的學習紀錄博客
🍖 原作者：K同学啊 | 接輔導、項目定制

一、我的環境

電腦系統：Windows 10
顯卡：NVIDIA Quadro P620
語言環境：Python 3.7.0
開發工具：Sublime Text，Command Line(CMD)
深度學習環境：Tensorflow 2.5.0

二、準備套件

# 提供一些與操作系統交互的功能，例如文件路徑操作等
import os
 
# 用於圖像處理，例如打開、操作、保存圖像文件
import PIL
 
# 用於處理文件路徑的模塊，提供一種更加直觀和面向對象的操作文件路徑方式
import pathlib
 
# 用於繪圖，可以創建各種類型的圖表和圖形
import matplotlib.pyplot as plt
 
# 數值計算庫，用於處理大型多維數組和矩陣的
import numpy as np
 
# 開源的機器學習框架
import tensorflow as tf
 
# 導入 keras 模塊，為 tensorflow 的高級 API 之一，操作起來更加簡單、易用
from tensorflow import keras
 
# layers模組包含了各種類型的神經網絡層
# models模組包含了用於定義神經網絡模型的類
# Input類用於定義模型的輸入
from tensorflow.keras import layers, models, Input
 
# 用於定義自定義的神經網絡模型
from tensorflow.keras.models import Model
 
# 導入Keras API中的一些常用神經網絡層
# 包括卷積層(Conv2D)、池化層(MaxPooling2D)、全連接層(Dense)、展平層(Flatten)、失活層(Dropout)
from tensorflow.keras.layers import Conv2D, MaxPooling2D, Dense, Flatten, Dropout
 
# 供了一個名為 tqdm 的進度條，可以在迭代過程中顯示進度，讓用戶了解運行的進度
# 它是一個很常用的進度條庫，對於長時間運行的程式非常有用
from tqdm import tqdm
 
# 將 Keras 的後端函數庫引入為 K
# Keras 的後端函數庫提供了一系列與計算圖和張量操作相關的功能，
# 例如張量的數學運算、梯度計算等。通常，我們可以通過 K. 來訪問這些函數和類
import tensorflow.keras.backend as K

三、隱藏警告

import warnings
warnings.filterwarnings('ignore')

四、設定 GPU

# 列出系統中的GPU裝置列表
gpus = tf.config.list_physical_devices("GPU")

# 如果有GPU
if gpus:
    # 挑選第一個 GPU
    gpu0 = gpus[0] 
    # 僅在需要的時候分配記憶體
    tf.config.experimental.set_memory_growth(gpu0, True)
    # 將 GPU0 設置為 TensorFlow 中可見的唯一 GPU ，將運算限制在特定的 GPU 上 
    tf.config.set_visible_devices([gpu0],"GPU")

五、載入資料


# 設定數據目錄的相對路徑，也可以使用絕對路徑
# D:/AI/ai_note/T8，這邊要注意斜線的方向
data_dir = "T8/"
# 將路徑轉換成 pathlib.Path 對象，更易操作
data_dir = pathlib.Path(data_dir)
# 使用 glob 方法獲取指定目錄下所有以 '.png' 為副檔名的文件迭代器
# '*/*.png 是一個通配符模式，表示所有直接位於子目錄中的以 .png 結尾的文件
# 第一個星號表示所有目錄
# 第二個星號表示所有檔名

image_count = len(list(data_dir.glob('*/*.jpg')))
# 印出圖片數量
print("圖片總數：",image_count)

# 開張圖來看看
dog = list(data_dir.glob('dog/*.jpg'))
img = PIL.Image.open(str(dog[0]))
plt.imshow(img)
# 關閉座標軸，即不顯示座標軸
plt.axis('off')
# 顯示圖片
plt.show()

六、數據預處理

# 設置批量大小，即每次訓練模型時輸入到模型中的圖像數量
# 在每次訓練跌代時，模型將同時處理8張圖像
# 批量大小的選擇會影響訓練速度和內存需求
batch_size = 8
# 圖像的高度，在加載圖像數據時，將所有的圖像調整為相同的高度，這裡設定為 224 像素
img_height = 224
# 圖像的寬度，在加載圖像數據時，將所有的圖像調整為相同的寬度，這裡設定為 224 像素
img_width = 224

# 創建訓練集
# 使用 tf.keras.preprocessing.image_dataset_from_directory 函數從目錄中創建一個圖像數據集
# 會得到一個 tf.data.Dataset 對象，其中包含指定目錄中圖像的數據集，以及相應的標籤
# 返回的這個數據集可以直接用於模型的訓練和驗證
train_ds = tf.keras.preprocessing.image_dataset_from_directory(
    # 表示包含圖像資料集的目錄的路徑
    data_dir,   
    # 指定要從資料集中分離出作為驗證集的部分比例
    # 例如，如果設置為 0.2，則將使用資料集的 20％ 作為驗證集，而其餘 80％ 將用於訓練
    validation_split=0.2,   
    # 設置為 "training"，表示創建訓練子集
    subset="training",
    # 設置隨機種子以便能夠複現結果
    seed=12,
    # 表示輸入圖像的大小，通常以像素為單位
    image_size=(img_height, img_width), 
    # 表示每個批次的樣本數量
    batch_size=batch_size)

# 創建驗證集
val_ds = tf.keras.preprocessing.image_dataset_from_directory(
    data_dir,
    validation_split=0.2,
    subset="validation",
    seed=123,
    image_size=(img_height, img_width),
    batch_size=batch_size)

# class_names 是一個包含數據集中所有類別名稱的列表
class_names = train_ds.class_names
# 印出類別
print(class_names)

# 從 train_ds 中迭代獲取一個批次(batch)的圖像數據和標籤數據，印出他們的形狀
for image_batch, labels_batch in train_ds:
    print('圖像數據的形狀:', image_batch.shape)
    print('標籤數據的形狀:', labels_batch.shape)
    break  # 只印一批次(batch)即可

七、配置數據集

# 設置一個參數 AUTOTUNE，它的值是 TensorFlow 中的一個特殊常量，用於自動調整處理數據的程式碼以優化性能
AUTOTUNE = tf.data.AUTOTUNE

# 用於對圖像和其對應的標籤進行預處理
def preprocess_image(image,label):
	# 將圖像數據進行歸一化處理，將像素值範圍從 0 到 255 轉換為 0 到 1 之間的浮點數。然後將處理後的圖像和原始的標籤返回
    return (image/255.0,label)

# 將訓練數據集 train_ds 中的每個圖像和標籤應用 preprocess_image 函數進行預處理
# num_parallel_calls 參數告訴 TensorFlow 在處理數據時可以同時進行的並行處理數量
train_ds = train_ds.map(preprocess_image, num_parallel_calls=AUTOTUNE)
# 對驗證數據集 val_ds 進行相同的預處理
val_ds   = val_ds.map(preprocess_image, num_parallel_calls=AUTOTUNE)

# 對訓練數據集進行緩存、洗牌和提前加載
# cache() 函數將數據緩存到記憶體中以提高訓練效率，
# shuffle(1000) 函數將數據洗牌以增加隨機性，
# prefetch(buffer_size=AUTOTUNE) 函數則是在訓練時提前加載數據以減少等待時間
train_ds = train_ds.cache().shuffle(1000).prefetch(buffer_size=AUTOTUNE)
# 對驗證數據集進行相同的緩存和提前加載操作
val_ds   = val_ds.cache().prefetch(buffer_size=AUTOTUNE)

八、可視化數據

# 創建了一個新的圖形窗口，並設置了其大小為 15x10
plt.figure(figsize=(15, 10))
# train_ds.take(1) 從訓練集中取出一個批次(batch)的數據
# 遍歷訓練數據集的第一個批次(batch)中的每張圖片
# images 是一個包含圖片數據的張量
# labels 是一個包含對應標籤的張量
for images, labels in train_ds.take(1):
	# 遍歷了這個批次中的前 8 張圖片
    for i in range(8):
        # 創建了一個子圖，將圖片放在一個 5x8 的網格中的適當位置
        # i + 1 是因為子圖的索引是從 1 開始的，而不是從 0 開始的
        ax = plt.subplot(5, 8, i + 1) 
        # 顯示了第 i 張圖片，images[i] 包含了這個批次中的第 i 張圖片的數據
        plt.imshow(images[i])
        # 設置了圖片的標題，標題是該圖片對應的標籤，labels[i] 是第 i 張圖片的標籤，class_names 是一個列表或數組，包含了所有可能的標籤名稱
        plt.title(class_names[labels[i]])
        # 關閉了坐標軸，這樣圖片就不會顯示坐標軸了
        plt.axis("off")

# 顯示圖片
plt.show()

九、建構 VGG-16

# 自建 VGG-16
# nb_classes 表示输出类别的数量
# input_shape 表示输入图像的形状
def VGG16(nb_classes, input_shape):
    input_tensor = Input(shape=input_shape)
    # 第一個卷積塊
    # 創建一個卷積層
    # 64：表示該卷積層使用了 64 個卷積核
    # (3, 3)：指定了每個卷積核的大小為 3x3
    # 使用ReLU（Rectified Linear Unit）作為激活函數，它是一種常用的非線性函數，能夠使模型具有更好的學習能力
    # padding='same' 表示使用零填充，以便輸入和輸出的尺寸相同
    # name='block1_conv1'，用於給該層命名以便識別
    # 輸入 input_tensor，表示輸入圖像數據
    x = Conv2D(64, (3,3), activation='relu', padding='same',name='block1_conv1')(input_tensor)
    # 創建和上一層一樣的卷積層
    x = Conv2D(64, (3,3), activation='relu', padding='same',name='block1_conv2')(x)
    # 創建一個最大池化層
    # 池化窗口大小是 (2,2)，池化步幅也是 (2,2)
    # 作用是對輸入特徵圖進行降採樣，減少特徵圖的尺寸，同時保留最重要的特徵
    x = MaxPooling2D((2,2), strides=(2,2), name = 'block1_pool')(x)

    # 第二個卷積塊
    # 層內容同上，把內容調整成 128 個卷積核
    x = Conv2D(128, (3,3), activation='relu', padding='same',name='block2_conv1')(x)
    x = Conv2D(128, (3,3), activation='relu', padding='same',name='block2_conv2')(x)
    x = MaxPooling2D((2,2), strides=(2,2), name = 'block2_pool')(x)

    # 第三個卷積塊
    # 層內容同上，把內容調整成 256 個卷積核
    x = Conv2D(256, (3,3), activation='relu', padding='same',name='block3_conv1')(x)
    x = Conv2D(256, (3,3), activation='relu', padding='same',name='block3_conv2')(x)
    x = Conv2D(256, (3,3), activation='relu', padding='same',name='block3_conv3')(x)
    x = MaxPooling2D((2,2), strides=(2,2), name = 'block3_pool')(x)

    # 第四個卷積塊
    # 層內容同上，把內容調整成 512 個卷積核
    x = Conv2D(512, (3,3), activation='relu', padding='same',name='block4_conv1')(x)
    x = Conv2D(512, (3,3), activation='relu', padding='same',name='block4_conv2')(x)
    x = Conv2D(512, (3,3), activation='relu', padding='same',name='block4_conv3')(x)
    x = MaxPooling2D((2,2), strides=(2,2), name = 'block4_pool')(x)
    
    # 第五個卷積塊
    # 層內容同上，把內容調整成 512 個卷積核
    x = Conv2D(512, (3,3), activation='relu', padding='same',name='block5_conv1')(x)
    x = Conv2D(512, (3,3), activation='relu', padding='same',name='block5_conv2')(x)
    x = Conv2D(512, (3,3), activation='relu', padding='same',name='block5_conv3')(x)
    x = MaxPooling2D((2,2), strides=(2,2), name = 'block5_pool')(x)
    
    # 展平層
    # 將多維輸入數據平坦化成一維數組
    # 將多維輸入數據（如卷積層的輸出）展平成一個一維數組，以便將其餵入全連接層
    x = Flatten()(x)

    # 全連接層
    # 包含 4096 個神經元
    # 使用 ReLU 激活函數
    # 用於將之前卷積層和池化層提取的特徵進一步轉換和提取  
    # 4096 表示全連接層（Dense layer）的神經元數量，也就是該層的輸出維度
    # 這個數字可以隨意設置，但通常根據具體的任務需求和模型架構來決定
    # 較大的神經元數量可能會增加模型的容量，但也可能導致過度擬合（overfitting）
    # 較小的神經元數量則可能導致模型無法充分擷取數據的特徵
    # 因此，選擇適當的神經元數量需要根據具體情況進行調整和嘗試
    x = Dense(4096, activation='relu',  name='fc1')(x)

    # 全連接層，設定同上 
    x = Dense(4096, activation='relu', name='fc2')(x)

    # 輸出層
    # 包含了 num_classes 個神經元
    # 其數量通常等於分類問題中的類別數量
    # 這一層的激活函數通常沒有指定，因為它用於輸出每個類別的原始分數或概率值
    output_tensor = Dense(nb_classes, activation='softmax', name='predictions')(x)

    model = Model(input_tensor, output_tensor)
    return model

# 調用自建的 VGG-16 模型
model=VGG16(1000, (img_width, img_height, 3))

# 印出模型結構
model.summary()

這裡我發現 VGG16(1000, (img_width, img_height, 3)) 中第一個參數雖然是表示模型輸出的類別數量，可是設置為 1000 效果比設置為 2 更好，推測是因為在訓練過程中，神經網路會嘗試學習將輸入數據映射到 1000 個類別中的某一個，在這個例子中，只有兩個類別，所以模型會適應這種情況並學習出適合的映射關係

使用 2 當參數，訓練出來的結果大約是 50% 左右的正確率，但使用 1000 當參數則可以獲得接近 1 的正確率

這是設定為 2 的

這是設定為 1000 的

十、設置優化器

# 指定了優化器為 Adam
# Adam 是一種常用的優化算法，
# 它結合了動量梯度下降和 RMSProp 策略，
# 可以有效地更新模型的權重以最小化損失函數
model.compile(optimizer="adam",
# 指定了損失函數為稀疏分類交叉熵。
# 在進行多類別分類任務時，稀疏分類交叉熵通常用於計算模型預測與真實標籤之間的差異，並作為模型優化的目標
              loss     ='sparse_categorical_crossentropy',
# 指定了評估指標為準確率
#在模型訓練過程中，準確率用於衡量模型對訓練數據的預測準確度，它是一個常用的模型評估指標
              metrics  =['accuracy'])

十一、訓練模型

epochs = 10
lr     = 1e-4

# 紀錄訓練數據，方便後面分析
history_train_loss     = []  # 紀錄訓練損失
history_train_accuracy = []  # 紀錄訓練準確率
history_val_loss       = []  # 紀錄驗證損失
history_val_accuracy   = []  # 紀錄驗證準確率

for epoch in range(epochs):
    train_total = len(train_ds)  # 訓練集樣本總數
    val_total   = len(val_ds)    # 驗證集樣本總數
    
    # total：預期的迭代次數
    # ncols：控制進度條寬度
    # mininterval：進度更新最小間隔，以秒為單位（默認值：0.1）
    
    with tqdm(total=train_total, desc=f'Epoch {epoch + 1}/{epochs}',mininterval=1,ncols=100) as pbar:
        
        lr = lr*0.92  # 更新學習綠
        K.set_value(model.optimizer.lr, lr)  # 將新的學習率設置到模型優化器中
        
        train_loss     = []  # 存儲每個訓練批次的損失
        train_accuracy = []  # 存儲每個訓練批次的準確率
        for image,label in train_ds:   
            # 生成每個批次的 acc 和 loss
            history = model.train_on_batch(image,label)  # 在一個批次上訓練模型
            
            train_loss.append(history[0])      # 紀錄每個批次的損失
            train_accuracy.append(history[1])  # 紀錄每個批次的準確率
            
            # 更新進度條顯示內容
            pbar.set_postfix({"train_loss": "%.4f"%history[0],
                              "train_acc":"%.4f"%history[1],
                              "lr": K.get_value(model.optimizer.lr)})  # 顯示訓練損失、準確率和當前學習率
            pbar.update(1)  # 更新進度條
            
        history_train_loss.append(np.mean(train_loss))        # 計算並存下平均訓練損失
        history_train_accuracy.append(np.mean(train_accuracy))  # 計算並存下平均訓練準確率
            
    print('開始驗證！')
    
    with tqdm(total=val_total, desc=f'Epoch {epoch + 1}/{epochs}',mininterval=0.3,ncols=100) as pbar:

        val_loss     = []  # 存下每個驗證批次的損失
        val_accuracy = []  # 存下每個驗證批次的準確率
        for image,label in val_ds:      
            # 生成每個批次的 acc 和 loss
            history = model.test_on_batch(image,label)  # 在一個批次上訓練模型
            
            val_loss.append(history[0])      # 紀錄每個批次的損失
            val_accuracy.append(history[1])  # 紀錄每個批次的準確率
            
            # 更新進度條顯示內容
            pbar.set_postfix({"val_loss": "%.4f"%history[0],
                              "val_acc":"%.4f"%history[1]})  # 顯示訓練損失、準確率
            pbar.update(1)  # 更新進度條
        history_val_loss.append(np.mean(val_loss))        # 計算並存下平均訓練損失
        history_val_accuracy.append(np.mean(val_accuracy))  # 計算並存下平均訓練準確率
            
    print('結束驗證！')
    print("驗證loss為：%.4f"%np.mean(val_loss))  # 印出本輪驗證損失的平均值
    print("驗證準確率為：%.4f"%np.mean(val_accuracy))  # 印出本輪驗證準確率的平均值

十二、模型評估

epochs_range = range(epochs)  # 定義迭代次數範圍

plt.figure(figsize=(14, 4))  # 創建畫布

# 繪製訓練和驗證準確率圖像
plt.subplot(1, 2, 1)  # 創建第一個子圖
plt.plot(epochs_range, history_train_accuracy, label='Training Accuracy')  # 繪製訓練準確率曲線
plt.plot(epochs_range, history_val_accuracy, label='Validation Accuracy')  # 繪製驗證準確率曲線
plt.legend(loc='lower right')  # 添加圖例，顯示在右下角
plt.title('Training and Validation Accuracy')  # 設置標題

# 繪製訓練和驗證及損失圖像
plt.subplot(1, 2, 2)  # 創建第二個子圖
plt.plot(epochs_range, history_train_loss, label='Training Loss')  # 繪製訓練損失曲線
plt.plot(epochs_range, history_val_loss, label='Validation Loss')  # 繪製驗證損失曲線
plt.legend(loc='upper right')  # 添加圖例，顯示在右上角
plt.title('Training and Validation Loss')  # 設置標題
plt.show()  # 顯示圖像

十三、預測

plt.figure(figsize=(18, 3))  # 創建圖形，設置尺寸為 18x3
plt.suptitle("預測結果顯示")  # 設置整個圖形的標題

for images, labels in val_ds.take(1):  # 從驗證數據集中取出一部分數據進行展示
    for i in range(8):  # 遍歷這一部分數據的前 8 張圖片
        ax = plt.subplot(1,8, i + 1)  # 在 1x8 的子圖中，選擇當前子圖
        
        # 顯示當前圖片
        plt.imshow(images[i].numpy())  # 顯示圖片，轉換為 NumPy 數組格式
        
        # 需要給圖片增加一個維度，因為模型的輸入要求有一個批次的維度
        img_array = tf.expand_dims(images[i], 0)  # 在第 0 個維度上擴展數組
        
        # 使用模型預測圖片中的貓狗類別
        predictions = model.predict(img_array)  # 對圖片進行預測
        plt.title(class_names[np.argmax(predictions)])  # 設置子圖標題為預測結果對應的類別名稱
        plt.axis("off")  # 關閉坐標軸顯示
plt.show()  # 顯示圖像