torch版本和tensorflow版本的预训练语言模型（如BERT）嫁接

Altinder

已于 2023-07-27 23:28:45 修改

阅读量135

点赞数

文章标签： tensorflow 语言模型 bert

于 2023-07-27 23:26:13 首次发布

本文链接：https://blog.csdn.net/qq_40332976/article/details/131970373

版权

最近手头有个项目，线上配的一整套流程都是基于tensorflow的，现在需要训练一个多层全连接网络的分类头，无需微调底层基座。由于本菜鸡实在用不惯组里老版的tensorflow1和keras，就还是用torch训练了分类模型。在线上部署的时候，把模型转numpy进行推理，嫁接在tensorflow出来的基座模型之后，（知道torch权重可以转tf，不用GPU是因为组里的一些限制）。然后，从几个点找原因：

怀疑不同框架的基座模型权重会有差异，经检查是完全一致的；
嫁接前后模型权重的精度不同，经检查都是float32；
模型的输入最大长度限制不同，导致BERT输出层会有差异，经检查，只要你的文本没有发生截断，PADDING在encode的时候会被mask掉，以防止模型学到无用的东西，因此，并不会对文本编码结果带来差异；

最后，经过细致（笨拙）的Debug，发现竟然训练少写了一层relu！！！

附：torch 1.8.1版本adamw的错误
在调用adamw优化器报错，发现是pytoch1.8中的adamw源码写错了，pytorch官方在1.9版本中修复了这个错误，所以直接用1.9中的代码替换掉就行

import torch
from . import _functional as F
from .optimizer import Optimizer
 
 
class AdamW(Optimizer):
    r"""Implements AdamW algorithm.
    The original Adam algorithm was proposed in `Adam: A Method for Stochastic Optimization`_.
    The AdamW variant was proposed in `Decoupled Weight Decay Regularization`_.
    Args:
        params (iterable): iterable of parameters to optimize or dicts defining
            parameter groups
        lr (float, optional): learning rate (default: 1e-3)
        betas (Tuple[float, float], optional): coefficients used for computing
            running averages of gradient and its square (default: (0.9, 0.999))
        eps (float, optional): term added to the denominator to improve
            numerical stability (default: 1e-8)
        weight_decay (float, optional): weight decay coefficient (default: 1e-2)
        amsgrad (boolean, optional): whether to use the AMSGrad variant of this
            algorithm from the paper `On the Convergence of Adam and Beyond`_
            (default: False)
    .. _Adam\: A Method for Stochastic Optimization:
        https://arxiv.org/abs/1412.6980
    .. _Decoupled Weight Decay Regularization:
        https://arxiv.org/abs/1711.05101
    .. _On the Convergence of Adam and Beyond:
        https://openreview.net/forum?id=ryQu7f-RZ
    """
 
    def __init__(self, params, lr=1e-3, betas=(0.9, 0.999), eps=1e-8,
                 weight_decay=1e-2, amsgrad=False):
        if not 0.0 <= lr:
            raise ValueError("Invalid learning rate: {}".format(lr))
        if not 0.0 <= eps:
            raise ValueError("Invalid epsilon value: {}".format(eps))
        if not 0.0 <= betas[0] < 1.0:
            raise ValueError("Invalid beta parameter at index 0: {}".format(betas[0]))
        if not 0.0 <= betas[1] < 1.0:
            raise ValueError("Invalid beta parameter at index 1: {}".format(betas[1]))
        if not 0.0 <= weight_decay:
            raise ValueError("Invalid weight_decay value: {}".format(weight_decay))
        defaults = dict(lr=lr, betas=betas, eps=eps,
                        weight_decay=weight_decay, amsgrad=amsgrad)
        super(AdamW, self).__init__(params, defaults)
 
    def __setstate__(self, state):
        super(AdamW, self).__setstate__(state)
        for group in self.param_groups:
            group.setdefault('amsgrad', False)
 
    @torch.no_grad()
    def step(self, closure=None):
        """Performs a single optimization step.
        Args:
            closure (callable, optional): A closure that reevaluates the model
                and returns the loss.
        """
        loss = None
        if closure is not None:
            with torch.enable_grad():
                loss = closure()
 
        for group in self.param_groups:
            params_with_grad = []
            grads = []
            exp_avgs = []
            exp_avg_sqs = []
            state_sums = []
            max_exp_avg_sqs = []
            state_steps = []
            amsgrad = group['amsgrad']
            beta1, beta2 = group['betas']
 
            for p in group['params']:
                if p.grad is None:
                    continue
                params_with_grad.append(p)
                if p.grad.is_sparse:
                    raise RuntimeError('AdamW does not support sparse gradients')
                grads.append(p.grad)
 
                state = self.state[p]
 
                # State initialization
                if len(state) == 0:
                    state['step'] = 0
                    # Exponential moving average of gradient values
                    state['exp_avg'] = torch.zeros_like(p, memory_format=torch.preserve_format)
                    # Exponential moving average of squared gradient values
                    state['exp_avg_sq'] = torch.zeros_like(p, memory_format=torch.preserve_format)
                    if amsgrad:
                        # Maintains max of all exp. moving avg. of sq. grad. values
                        state['max_exp_avg_sq'] = torch.zeros_like(p, memory_format=torch.preserve_format)
 
                exp_avgs.append(state['exp_avg'])
                exp_avg_sqs.append(state['exp_avg_sq'])
 
                if amsgrad:
                    max_exp_avg_sqs.append(state['max_exp_avg_sq'])
 
                # update the steps for each param group update
                state['step'] += 1
                # record the step after step update
                state_steps.append(state['step'])
 
            F.adamw(params_with_grad,
                    grads,
                    exp_avgs,
                    exp_avg_sqs,
                    max_exp_avg_sqs,
                    state_steps,
                    amsgrad=amsgrad,
                    beta1=beta1,
                    beta2=beta2,
                    lr=group['lr'],
                    weight_decay=group['weight_decay'],
                    eps=group['eps'])
 
        return loss

Altinder

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
torch版本和tensorflow版本的预训练语言模型（如BERT）嫁接

最近手头有个项目，线上配的一整套流程都是基于tensorflow的，现在需要训练一个多层全连接网络的分类头，无需微调底层基座。在线上部署的时候，把模型转numpy进行推理，嫁接在tensorflow出来的基座模型之后，（知道torch权重可以转tf，不用GPU是因为组里的一些限制）。在调用adamw优化器报错，发现是pytoch1.8中的adamw源码写错了，pytorch官方在1.9版本中修复了这个错误，所以直接用1.9中的代码替换掉就行。附：torch 1.8.1版本adamw的错误。
复制链接

扫一扫