模型代码学习-CLS文本分类-Bert-Chinese-Text-Classification-Pytorch代码学习-训练并测试过程

最新推荐文章于 2024-07-27 22:23:18 发布

CuriousLiu

最新推荐文章于 2024-07-27 22:23:18 发布

阅读量2.5k

点赞数 9

分类专栏：个人笔记文章标签： BERT 中文文本分类

本文链接：https://blog.csdn.net/curiousliu/article/details/109851922

版权

Reference：https://github.com/649453932/Bert-Chinese-Text-Classification-Pytorch

模型代码学习-CLS文本分类-Bert-Chinese-Text-Classification-Pytorch代码学习-训练并测试过程

baseDir： Bert-Chinese-Text-Classification-Pytorch/

./train_eval.py学习

全局

def init_network(model, method='xavier', exclude='embedding', seed=123):

def train(config, model, train_iter, dev_iter, test_iter):

def evaluate(config, model, data_iter, test=False):

def test(config, model, test_iter):

./run.py学习

./train_eval.py学习

全局

在import来看，从sklearn里import了metrics，或许是测试过程中使用？->在测试过程中进行了使用，看起来加入normalize=False后是统计有几个对的，不加入后就是相较于整体个数的百分比

>>> from sklearn.metrics import accuracy_score
>>> y_pred = [0,0,0,2,1,3,4,5]
>>> y_true = [0,0,0,6,6,6,6,6]
>>> accuracy_score(y_true, y_pred)
0.375
>>> accuracy_score(y_true, y_pred, normalize=False)
3

import了pytorch_pretrained_bert.optimization中的BertAdam，BERT版本具有权值衰减固定、预热和学习速率线性衰减的Adam Optimizer。

# coding: UTF-8
import numpy as np
import torch
import torch.nn as nn
import torch.nn.functional as F
from sklearn import metrics
import time
from utils import get_time_dif
from pytorch_pretrained_bert.optimization import BertAdam

def init_network(model, method='xavier', exclude='embedding', seed=123):

这个函数在哪里被调用了，怎么感觉没有找到->似乎没有，暂时忽略了
从入参来看，seed=123该怎么理解，似乎没有用到？->所有seed字段的目标似乎都是为了结果的“可复现”，根据讨论后，在同一台机器上如果使用完全相同的seed，这样可能会在各类参数随机初始化的过程中成为一定的“随机定值”，使得结果可复现。但是讨论后认为在一些实验中如果不同机器使用了相同的seed，可能也没有效果。

# 权重初始化，默认xavier
def init_network(model, method='xavier', exclude='embedding', seed=123):
    for name, w in model.named_parameters():
        if exclude not in name:
            if len(w.size()) < 2:
                continue
            if 'weight' in name:
                if method == 'xavier':
                    nn.init.xavier_normal_(w)
                elif method == 'kaiming':
                    nn.init.kaiming_normal_(w)
                else:
                    nn.init.normal_(w)
            elif 'bias' in name:
                nn.init.constant_(w, 0)
            else:
                pass

def train(config, model, train_iter, dev_iter, test_iter):

入参是config，模型model，还有train，valid，test三个数据集的iter
当前时间作为开始时间
model.train怎么理解，追溯传参来源run.py model = x.Model(config).to(config.device) ，model_name = args.model # bert x = import_module('models.' + model_name) config = x.Config(dataset)，所以这里的model.train是否是来自pretrain bert的.train()方法？->目前来看model.train()是把model切换到train的状态，与model.eval()把模型切换到evaluate状态相对应，由于dropout等问题，模型在训练和测试过程中可能需要具有不同的状态（例如在验证、测试过程中不希望不同次的验证、测试有不同的结果，所以需要关闭dropout）
所有config内容来自于./models/bert.py中，如果要对超参进行调整，在bert.py进行调整即可
以下关于optimizer的设置怎么理解->这里的warmup可以理解为让学习率先增大，后减小，或许这样可以尽快锁定一个区间，从而在这个区间来细化优化，另注，在讨论后认为在fine-tune过程中学习率不宜过大，要稍微小写
param_optimizer = list(model.named_parameters())
no_decay = ['bias', 'LayerNorm.bias', 'LayerNorm.weight']
optimizer_grouped_paramete