深度学习Week13——利用TensorFlow实现咖啡豆识别

最新推荐文章于 2025-03-26 21:14:54 发布

ET、小涵

最新推荐文章于 2025-03-26 21:14:54 发布

阅读量995

点赞数 11

文章标签：深度学习 tensorflow 人工智能

本文链接：https://blog.csdn.net/Ying_xiaotao/article/details/138666846

版权

文章目录
深度学习Week13——利用TensorFlow实现咖啡豆识别
一、前言
二、我的环境
三、前期工作
1、配置环境
2、导入数据
四、数据预处理
1、加载数据
2、可视化数据
3、检查数据
4、配置数据集
五、构建VGG-16模型
六、编译模型
七、训练模型
八、预测与评估
1、Accuracy图
九、拓展

一、前言

🍨 本文为🔗365天深度学习训练营中的学习记录博客

🍖 原作者：K同学啊 | 接辅导、项目定制

本篇内容分为两个部分，前面部分是学习K同学给的算法知识点以及复现，后半部分是自己的拓展与未解决的问题

二、我的环境

电脑系统：Windows 10
语言环境：Python 3.8.0
编译器：Pycharm2023.2.3
深度学习环境：TensorFlow
显卡及显存：RTX 3060 8G

三、前期工作

1、导入库并配置环境

from tensorflow       import keras
from tensorflow.keras import layers,models
import os, PIL, pathlib
import matplotlib.pyplot as plt
import tensorflow        as tf

gpus = tf.config.list_physical_devices("GPU")

if gpus:
    gpu0 = gpus[0]                                        #如果有多个GPU，仅使用第0个GPU
    tf.config.experimental.set_memory_growth(gpu0, True)  #设置GPU显存用量按需使用
    tf.config.set_visible_devices([gpu0],"GPU")
    
gpus

这一步与pytorch第一步类似，我们在写神经网络程序前无论是选择pytorch还是tensorflow都应该配置好gpu环境（如果有gpu的话）

2、导入数据

导入所有好莱坞明星照片数据，依次分别为训练集图片(train_images)、训练集标签(train_labels)、测试集图片(test_images)、测试集标签(test_labels)，数据集来源于K同学啊的网盘：数据集

data_dir = "E:\Deep_Learning\Data\Week7"

data_dir = pathlib.Path(data_dir)

image_count = len(list(data_dir.glob('*/*.jpg')))

print("图片总数为：",image_count)

#查看第一张图片：
roses = list(data_dir.glob('Dark/*.png'))
PIL.Image.open(str(roses[0]))

图片总数为： 1800
在这里插入图片描述

四、数据预处理

1、加载数据

batch_size = 32
img_height = 224
img_width = 224

使用image_dataset_from_directory方法将磁盘中的数据加载到tf.data.Dataset中

tf.keras.preprocessing.image_dataset_from_directory()会将文件夹中的数据加载到tf.data.Dataset中，且加载的同时会打乱数据。

class_names

validation_split: 0和1之间的可选浮点数，可保留一部分数据用于验证。

subset: training或validation之一。仅在设置validation_split时使用。

seed: 用于shuffle和转换的可选随机种子。

batch_size: 数据批次的大小。默认值：32

image_size: 从磁盘读取数据后将其重新调整大小。默认：（256，256）。由于管道处理的图像批次必须具有相同的大小，因此该参数必须提供。

"""
关于image_dataset_from_directory()的详细介绍可以参考文章：https://mtyjkh.blog.csdn.net/article/details/117018789
"""
train_ds = tf.keras.preprocessing.image_dataset_from_directory(
    data_dir,
    validation_split=0.2,
    subset="training",
    seed=123,
    image_size=(img_height, img_width),
    batch_size=batch_size)

输出：

Found 1200 files belonging to 4 classes.
Using 960 files for training.

验证集并没有参与训练过程梯度下降过程的，狭义上来讲是没有参与模型的参数训练更新的。
但是广义上来讲，验证集存在的意义确实参与了一个“人工调参”的过程，我们根据每一个epoch训练之后模型在valid data上的表现来决定是否需要训练进行early stop，或者根据这个过程模型的性能变化来调整模型的超参数，如学习率，batch_size等等。
因此，我们也可以认为，验证集也参与了训练，但是并没有使得模型去overfit验证集

"""
关于image_dataset_from_directory()的详细介绍可以参考文章：https://mtyjkh.blog.csdn.net/article/details/117018789
"""
val_ds = tf.keras.preprocessing.image_dataset_from_directory(
    data_dir,
    validation_split=0.2,
    subset="validation",
    seed=123,
    image_size=(img_height, img_width),
    batch_size=batch_size)

输出：

Found 1200 files belonging to 4 classes.
Using 240 files for validation.

我们可以通过class_names输出数据集的标签。标签将按字母顺序对应于目录名称。

class_names = train_ds.class_names
print(class_names)

[‘Dark’, ‘Green’, ‘Light’, ‘Medium’]

2、数据可视化

# 查看前20个图片
plt.figure(figsize=(20, 10))

for images, labels in train_ds.take(1):
    for i in range(20):
        ax = plt.subplot(5, 10, i + 1)

        plt.imshow(images[i].numpy().astype("uint8"))
        plt.title(class_names[labels[i]