我的两年创作纪念日

最新推荐文章于 2025-04-07 10:20:24 发布

扫地的小何尚

最新推荐文章于 2025-04-07 10:20:24 发布

阅读量344

点赞数 2

文章标签： GPU

本文链接：https://blog.csdn.net/kunhe0512/article/details/137631551

版权

本文讲述了一位专注于高性能计算和人工智能开发的程序员如何通过博客分享工作中的技术，包括使用HuggingFace库的AI流程，以及如何进行模型量化的过程。他希望通过这些内容帮助中国开发者更好地理解和利用GPU。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

机缘

我呢, 是做高性能计算和人工智能开发的一个程序员.最开始呢, 就是想记录下工作中的内容.
后来我就想把工作中用到的开发者手册和指南整理翻译, 希望帮到更多的中国的开发者能更快更好的了解最新的AI技术.

收获

在这两年里, 不知不觉间一共完成了400多篇博客, 其实也不知道哪里来的动力, 我想这慢慢的成为了自己的一种习惯.

日常

我的工作呢, 是我司的开发者社区, 目的就是帮助中国的开发者更好地了解GPU和更好的利用GPU开发.

所以创作就是在生活, 也是在工作, 我很享受这一过程

成就

我觉得最好的代码是最简洁的方式完成任务, 仅仅通过几行代码就能部署AI流程:

# Load the SDXL-1.0 base model from HuggingFace
import torch
from diffusers import DiffusionPipeline
base = DiffusionPipeline.from_pretrained(
    "stabilityai/stable-diffusion-xl-base-1.0",
    torch_dtype=torch.float16,
    variant="fp16",
    use_safetensors=True
)
base.to("cuda")
 
# Load calibration prompts:
from utils import load_calib_prompts
cali_prompts = load_calib_prompts(batch_size=2,prompts="./calib_prompts.txt")
 
# Create the int8 quantization recipe
from utils import get_percentilequant_config
quant_config = get_percentilequant_config(base.unet, quant_level=3.0, percentile=1.0, alpha=0.8)
 
# Apply the quantization recipe and run calibration  
import ammo.torch.quantization as atq 
quantized_model = atq.quantize(base.unet, quant_config, forward_loop)
 
# Save the quantized model
import ammo.torch.opt as ato
ato.save(quantized_model, 'base.unet.int8.pt')