深度学习--了解代码基本思路

太阳熬夜wan

已于 2024-03-06 10:21:46 修改

阅读量1k

点赞数 19

分类专栏：深度学习文章标签：深度学习人工智能

于 2024-03-05 23:44:46 首次发布

本文链接：https://blog.csdn.net/m0_52641008/article/details/136491585

版权

深度学习专栏收录该内容

1 篇文章 0 订阅

订阅专栏

前言：从github上下载代码下来，虽然能大致看到指导，但是看着里面那么多文件，还是很头大，找到一个文件没那么复杂的代码，大致弄懂了应该要怎么去写深度学习的代码。

1.单个.py文件的简单Pytorch代码

《PyTorch深度学习实践》完结合集_哔哩哔哩_bilibili

建议大家自行去看这个。

基本思路就是：

1.准备数据集

2.构造训练函数

3.构造损失函数和优化器

4.迭代训练

2.很多个文件

示例代码：aRI0U/RandLA-Net-pytorch: PyTorch implementation of RandLA-Net (github.com)

里面文件就是这样，右边是utils文件夹里面的内容。

2.1requirement.txt

首先，这个requirement.txt文件是用来创建环境的，里面包含满足这个代码正常运行条件的固定版本的依赖包（库？）。这个用法，在另一篇笔记里Python学习--前期准备-CSDN博客，也可以自己ChatGPT一下，很详细的。

2.2train.py

主要的就是train.py。有些可能是main.py

就是在这里面写上，上面那4步：加载数据--用来训练的模型--构造损失函数和优化器--迭代训练，只不过复杂了一点。

直接定义一个train（函数？，这个python的很多语法我还没彻底搞懂，我编程能力很差！）

第一步加载数据

这个在这里写的很简单，但是它是把基本的函数写在 data.py里，然后在这里实例化（反正就是引用它的意思，忘记是不是这么叫了），加载训练和验证数据集：

train_loader, val_loader = data_loaders(
    args.dataset,
    args.dataset_sampling,  # 应该是 数据采样策略 ，大概是怎么形成一个批的我猜。
    batch_size=args.batch_size,  # 每个批次中的样本数量
    num_workers=args.num_workers,  # 用于数据加载的子进程数量
    pin_memory=True  # 如果使用GPU进行训练，这个参数可以确保数据在传输到GPU之前被锁定在固定的内存区域，这有助于加速数据从CPU到GPU的传输
)

然后，写基本函数的时候是不是还不知道数据的具体路径，只是用某个参数代指一下，那在这里，为了方便，就要在前面设置一些路径：

train_path = args.dataset / args.train_dir  # 创建一个路径对象，表示训练数据的目录
val_path = args.dataset / args.val_dir  # 创建一个路径对象，表示验证数据的目录
logs_dir = args.logs_dir / args.name  # 创建一个路径对象，表示日志的目录
logs_dir.mkdir(exist_ok=True, parents=True)  # 尝试创建上述日志目录

第二步是不是就该构造训练函数了，这里就是对训练模型进行初始化。而且这个训练模型具体的内容也不写在这里，而是写在model.py里，反正先不管它里面长啥样，我们按住ctrl再用鼠标点这个模型的名称，就跳转到它的定义那里（model.py里），看看它初始化那行（__init__)里面有啥参数：

def __init__(self, d_in, num_classes, num_neighbors=16, decimation=4, device=torch.device('cpu')):

那我就在这边对这几个参数进行初始化：

# 模型初始化
model = RandLANet(
    d_in,  # 输入数据通道数
    num_classes,  # 类别数
    num_neighbors=args.neighbors,  # 模型中用于确定邻居节点数量的参数（应该是那个局部特征整合中的k近邻个点）
    decimation=args.decimation,  # 可能是与模型的下采样率或分辨率降低有关的参数（整合完局部后就下采样，应该是RS随机采样部分吧）
    device=args.gpu  # 指定模型应该运行在哪个设备上，通常是CPU或GPU----------------------（我要用cpu的话，是直接改成cpu吗）
)

那你看，是不是要赋予这5个参数一个具体的值，才初始化成功。那就一个一个来，最好写在这段上边：

d_in:

# 确定输入维度 (输入数据的通道数）
d_in = next(iter(train_loader))[0].size(-1)
# 获取一个批次的数据，并提取第一个数据项（通常是图像）的最后一个维度的大小。这个大小通常对应于输入图像的通道数。d_in 将被用作模型输入的大小。

num_classes:

# determine number of classes    确定类别数
try:
    with open(args.dataset / 'classes.json') as f:
        labels = json.load(f)
        num_classes = len(labels.keys())
except FileNotFoundError:
    num_classes = int(input("Number of distinct classes in the dataset: "))

后面3个，都用了args.，大致就是把它们放在__main__里面初始化了的意思。

第三步构造损失函数和优化器

criterion = nn.CrossEntropyLoss(weight=weights)  # 设置损失函数为交叉熵损失（通常用于分类任务）
optimizer = torch.optim.Adam(model.parameters(), lr=args.adam_lr)
scheduler = torch.optim.lr_scheduler.ExponentialLR(optimizer, args.scheduler_gamma)  # 学习率衰减策略

它这里就是多了一个scheduler,这个就是改变学习率的，就是有一定优化作用吧，不管它。那注意这三行里面的参数，这个weight是不是给了个初始值weights，那就在前面给出这个值：

# Computing weights…… 计算每个类别的权重，用于调整损失函数。
print('Computing weights...', end='\t')  # end='\t' 表示消息结束后将插入一个制表符（tab）而不是换行
samples_per_class = np.array(
    cfg.class_weights)  # 这个有点没懂，class_weights直接给了一组数，这个应该指的是指的是整个训练数据集中，每个类别/标签的点云个数。（注意：每个点都有一个标签）---------------

n_samples = torch.tensor(cfg.class_weights, dtype=torch.float, device=args.gpu)  # 把样本数（点云个数）转化为张量。
ratio_samples = n_samples / n_samples.sum()  # 计算每个类别样本数占总样本数的比例
weights = 1 / (ratio_samples + 0.02)  # 计算每个类别的权重。类别权重用于调整损失函数，以便模型更多地关注那些样本较少的类别。

print('Done.')
print('Weights:', weights)

第四步迭代训练

一般来说，我们直接进行for循环迭代训练就行，但是这里多了一个if。因为这是比较大的工程嘛，然后训练要比较长时间，你可能训练到一半因为某些原因停止了，所以这里是有一个检查点的概念的，就是每训练几个epoch或者batch我给它记录一下当前的状态（模型的参数呀，优化器，学习率……）这一段代码的大概意思就是如果你之前训练过有个状态，我就接着弄。后面接着弄的部分也要进行记录保存到日志里。

1.模型改成训练模式。（关于训练模式model.train()和评估模式model.eval()区别，下次有空，彻底搞搞清楚）

2.然后就是，遍历数据集，在一个epoch里梯度清零，前馈，后馈，更新，算损失，精度。

3.完成一个epoch后，更新学习率，算该epoch的损失，精度。这里后面多了一个在验证集上评估精度。

4.开始结束时间。

5.结果写进日志

6.是否保存检查点（训练过程的很多东西，并不只是结果）

上面6步，就是一个epoch的内容，for一下就好了。

最后，main函数调用，前面提到的各种args要定义一下。就好了。

但是，这里没有存储最优模型的代码，后面的test.py用的检查点文件。（感觉可以改一下，但我不会）