计算模型中的可训练参数数量：print_trainable_parameters【参考LoRA】

u013250861

已于 2023-06-14 23:48:14 修改

阅读量1.1k

点赞数 1

分类专栏： LLM 文章标签： python 开发语言

于 2023-06-14 23:47:54 首次发布

本文链接：https://blog.csdn.net/u013250861/article/details/131218289

版权

LLM 专栏收录该内容

108 篇文章 233 订阅 ¥19.90 ¥99.00

订阅专栏

超级会员免费看

本文介绍了2023年深度学习入门的关键概念，特别是通过PEFT（Parameter-efficient Fine-tuning）和LoRA（Low-Rank Adaptation）技术，探讨了如何在计算模型中计算和理解可训练参数的数量。通过实例演示，帮助读者掌握这一核心概念。

摘要由CSDN通过智能技术生成

def print_trainable_parameters(model):
    """
    Prints the number of trainable parameters in the model.
    """
    trainable_params = 0
    all_param = 0
    for _, param in model.named_parameters():
        all_param += param.numel()
        if param.requires_grad:
            trainable_params += param.numel()
    print(f"trainable params: {trainable_params} || all params: {all_param} || trainable%: {100 * trainable_params / all_param}")

运行一下：

print_trainable_parameters(model)

输出结果如下：

trainable params: 8388608 || all params: 6666862592 || trainable%: 0.12582542214183376

2023年的深度学习入门指南(12) - PEFT与LoRA_Jtag特工的博客-CSDN博客

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

u013250861

关注关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

订阅专栏

可训练参数在训练时不发生变化_神经网络中的可训练参数如何实现最优？

weixin_29288313的博客

01-31

1068

神经网络中的每一层对输入数据进行如下变换：output=relu(dot(W，input)+b)在上述表达式中，W和b都是张量，被称为该层的权重(weight)或可训练参数(trainable parameter)，分别对应kernel和bias属性。这些权重包含网络从训练数据中学到的信息。刚开始，这些权重矩阵取较小的随机值，即称为随机初始化(random initialization)。当然，W...

备忘：Tensorflow计算模型需要训练的参数数目

阿门的博客

12-14

356

计算模型需要训练的参数数目： def count_trainable_vars(): total_parameters = 0 for variable in tf.trainable_variables(): variable_parameters = 1 for dim in variable.get_shape(): ...

参与评论您还未登录，请先登录后发表或查看评论

保存模型可训练参数的正确姿势：state_dict vs named_parameters

最新发布

ningyanggege的博客

07-24

711

今天我们来聊聊一个看似简单但却容易踩坑的主题：如何正确保存模型的可训练参数。你可能会问：“这有什么难的？直接用 model.state_dict() 不就行了吗？” 哦，朋友，事情可没那么简单！

tensorflow统计graph中的trainable_variables

u010454261的博客

07-19

2051

最简单的做法: 转自: https://blog.csdn.net/feynman233/article/details/79187304, 版权归原作者所有。 print(np.sum([np.prod(v.get_shape().as_list()) for v in tf.trainable_variables()])) 另有篇博客讲解的很详细:原文地址https://blog.csd...

Count to tensorflow model FLOPs and trainable params

麻花

01-03

582

Count to tensorflow model FLOPs and trainable params Step1: Convert your tensorflow checkpoint model to PB format Step2: Call the function as follows import tensorflow as tf from tensorflow.python.fra...

深度学习模型训练和关键参数调优详解

zbp_12138的博客

08-22

7775

深度学习模型训练和关键参数调优详解一、模型选择1.回归任务人脸关键点检测2.分类任务图像分类3.场景任务目标检测人像分割文字识别二、模型训练1.基于高层API训练模型加载数据集模型封装训练参数配置模型训练2.使用PaddleX训练模型配置数据集初始化模型模型训练3.模型训练通用配置基本原则三、超参优化1.超参优化的基本概念参数超参数2.手动调整超参数的四大方法1）使用提前停止来确定训练的迭代次数分类准确率不再提升时loss降到一个想要的范围时2）让学习率从高逐渐降低3）宽泛策略通过简化网络来加速实验进行更有

ChatGLM2-6B 训练参数解释

人工智能曾小健

06-28

3786

在深度学习中，我们通常不会同时处理所有的训练样本，而是将它们分成“批次”进行处理。在这个例子中，每个设备上的即时批量大小为4，意味着每个设备一次处理4个样本。这可能意味着在多个设备上同时进行训练，每个设备处理一部分批次，然后把这些批次加起来，总和为16。: 这是模型中可以通过训练改变的参数的数量。: 一个epoch指的是模型在训练过程中遍历整个训练集一次。: 这表示在你的训练集中有243个样本，即243个独立的数据点用于训练模型。: 梯度累积是一种在内存不足的情况下训练大模型的技巧。

模型参数量(Params)/模型大小 & Pytorch统计模型参数量

热门推荐

hxxjxw的博客

07-23

1万+

到时候把dict的item换成你所用模型的 print(model) total_params = sum(p.numel() for p in model.parameters()) print(f'{total_params:,} total parameters.') _dict = {} _dict['encoder'] = 0 _dict['decoder'] = 0 _dict['stn_head'] = 0 for _,param in enumerate(.

【KAWAKO】模型的压缩、扩张，计算模型的各种成本

本平台停止更新，后续文章将在个人博客blog.kawako.fun发布

05-13

1299

目录模型压缩量化稀疏化训练剪枝知识蒸馏自蒸馏集成使用精细化模型结构模型扩张深度宽度输入图像的分辨率深度、宽度、分辨率联合扩张使用精细化模型结构模型压缩量化稀疏化训练剪枝知识蒸馏自蒸馏集成使用精细化模型结构模型扩张深度宽度输入图像的分辨率深度、宽度、分辨率联合扩张使用精细化模型结构 ...

大语言模型之七- Llama-2单GPU微调SFT

shichaog的专栏

09-02

6655

可以使用tranformers和trl库两种方式实现微调，TRL是huggingface开发的模型微调库，旨在简化和简化语言模型的微调过程，凭借其直观的接口和广泛的功能，TRL使研究人员和从业者能够轻松高效地微调大型语言模型，如LLaMA-v2-7B。通过利用TRL，我们可以释放语言模型化的全部潜力。它为各种NLP任务提供了一套全面的工具和技术，包括文本分类、命名实体识别、情感分析等等。有了TRL，能够根据特定需求微调LLaMA-v2-7B定制模型的功能。

2023年的深度学习入门指南(12) - PEFT与LoRA

lusing的专栏

05-07

4133

大家都知道，大模型的训练需要海量的算力。其实，即使是只对大模型做微调训练，也是需要大量的计算资源的。有没有用更少的计算资源来进行微调的方法呢？研究者研发出了几种被Hugging Face统称为参数高效微调PEFT(Parameter-Efficient Fine-Tuning)的技术。这其中常用的几个大家应该已经耳熟能详了，比如广泛应用的LoRA技术(Low Rank Adapters,低秩适配)，Prefix Tuning技术，Prompt Tuning技术等等。

【Tensorflow2.x学习笔记】- Keras高层接口

qq_42433311的博客

01-03

2391

目录 1.Keras简介 2.常见功能模块 2.1 常见网络层类 2.2 网路容器 3.模型装配、训练、测试 3.1 模型装配 3.2 模型训练 3.3模型测试 4.模型的保存与加载 4.1 张量方式 4.2网络方式 4.3 SaveModel方式 5.自定义网络 5.1自定义网络层 5.2自定义网络 6.测量工具 7.可视化 7.1模型端 7.2浏览器端 1.Keras简介 Keras是一个主要由 Python语言开发的开源神经网络计...

SiamBAN 训练过程debug记录

allrubots的博客

06-19

2300

debug 训练整个过程中一些不好用文字表达的参数，从而截个图记录一下，方便查看

大模型高效调参—PEFT库（ Parameter-Efficient Fine-Tuning）

消极的人永远是对的，积极的人选择勇往直前

05-17

5630

大模型高效调参大法——PEFT库（ Parameter-Efficient Fine-Tuning）

LoRA: Low-Rank Adaptation of Large Language Models低秩自适应

emphmeral的博客

02-23

4745

通过矩阵分解降低LLM中的模型参数

tensorflow 版本_Tensorflow两类版本获取模型参数情况的方法

weixin_39714835的博客

11-24

457

分享人工智能技术干货，专注深度学习与计算机视觉领域！Tensorflow存在不同版本架构的差异，以Tensorflow2.0为分界线，Tensorflow 2.0以下的版本都是以静态图构建图结构，且一般是调用TF内建接口来构造神经网络模型的，而Tensorflow2.0及以上版本则默认以动态图构建图结构，且默认是以Keras API接口来构建神经网络模型的，因此，获取模型参数情况的方法也因不同版本...

神经网络模型的参数量和计算量

凌逆战的博客

09-08

4279

其实模型的参数量好算，但浮点运算数并不好确定，我们一般也就根据参数量直接估计计算量了。但是像卷积之类的运算，它的参数量比较小，但是运算量非常大，它是一种计算密集型的操作。反观全连接结构，它的参数量非常多，但运算量并没有显得那么大。 FLOPs(Floating-point Operations)：浮点运算次数，理解为计算量，可以用来衡量算法的复杂度。一个乘法或一个加法都是一个FLOPs FLOP...

Gradient-Based Learning Applied to Document Recognition LeNet-5部分阅读笔记

m0_37749527的博客

02-03

7798

《Gradient-Based Learning Applied to Document Recognition》点击打开链接 Background knowledge 1. Gradient-based learning 2. Back propagation: gradients can be computed efficiently by propagati

将 MobileNet 模型的所有参数设置为不可训练，即 base_model.trainable = False的意义是？

05-24

将 MobileNet 模型的所有参数设置为不可训练，意味着在进行模型训练时，这些参数不会被更新。这样做的主要目的是保持模型的稳定性，避免在训练过程中对预训练的模型权重造成破坏，同时也可以加快训练速度，因为不需要更新这些参数。在实际应用中，通常使用预训练的模型作为特征提取器，将预训练模型的参数设置为不可训练，然后添加自己的全连接层进行微调训练。这种方法可以利用预训练模型的优势，同时也可以通过微调全连接层来适应特定的任务。