书生·浦语大模型第二期实战营第五课笔记+作业

琦奇说

已于 2024-04-24 18:09:14 修改

阅读量606

点赞数 21

文章标签：笔记

于 2024-04-24 18:08:44 首次发布

本文链接：https://blog.csdn.net/m0_53217058/article/details/138166179

版权

1. 基础作业

1. 1 使用transformer库运行模型

话说这是谱语对中文支持好吗？

试了试

补一下量化的资料：

KV8和W4A16量化是神经网络模型在进行推理时使用的量化技术，用于优化模型的存储需求和计算速度。这些技术通过减少模型中权重和激活的数值精度来达到目的。下面是这两种量化策略的详细解释：

KV8量化

KV8量化可能是一种定制的量化策略，其中“KV”可能指的是特定的权重（Kernels）或者数据（如Key-Value对）的量化策略，而“8”指的是使用8位（通常是8位整数）来表示这些权重或数据。这种策略通常用于神经网络中的卷积核或其他参数，以减少模型大小和提高计算效率。然而，需要注意的是，“KV8”并不是一个广泛认知的术语，可能是特定库或框架中的一个特定实现。

W4A16量化

W4A16量化是指使用4位精度来量化权重（Weights，W4），和16位精度来量化激活（Activations，A16）。这种量化策略在某些场景中可以有效平衡性能和精度，特别是在资源受限的设备上运行大型神经网络模型时。

权重量化（W4）：通过将权重的精度从原来的32位浮点数减少到4位整数，显著减小了模型权重的内存占用。这通常会导致一些精度损失，但如果通过适当的训练和校准技术进行优化，这种损失可以被控制在可接受的范围内。
激活量化（A16）：激活通常是神经网络中非线性函数的输出，如ReLU。使用16位整数来表示这些值可以在维持较高计算精度的同时减少计算资源的消耗。

1.2 使用lmdeploy运行模型，命令行对话

2. 进阶作业

2.1 设置最大KV Cache缓存大小 + W4A16量化

lmdeploy chat /root/internlm2-chat-1_8b --cache-max-entry-count 0.4

占用显存更小

输出的飕飕的：

cache占到0.01后模型更聪明了（狗头）

lmdeploy lite auto_awq
/root/internlm2-chat-1_8b
–calib-dataset ‘ptb’
–calib-samples 128
–calib-seqlen 1024
–w-bits 4
–w-group-size 128
–work-dir /root/internlm2-chat-1_8b-4bit

2.2 API Server + 量化 + 调整KV占比

lmdeploy serve api_server /root/internlm2-chat-1_8b-4bit --model-format awq --cache-max-entry-count 0.4 --quant-policy 0 --server-name 0.0.0.0 --server-port 23333 --tp 1