讲座心得
讲座上,英特尔的高级工程师,团队经理讲了达模型的优化技术
从Model Compression Tech Overview,Quantization Methods,Quantization Formula等多个角度对优化技术进行了讲解。
除此之外,讲座还详细讲解了LLM量化的优缺点,图文并貌的展示了SmoothQuant,英特尔自主提升的技术展示
实验
实验在modelscope上进行,首先是在terminal中创建对应的虚拟环境,下载chatglm3-6b大模型,通过inter_extension_for_transformers的几个库,就可实现plug and play的对transformer的修改。从而在有限的资源下轻量级使用大模型。