模型训练和加速
文章平均质量分 96
常规模型训练、大模型训练以及分布式训练,模型压缩、量化、加速、ONNX、tensort等相关技术和算法等
colourmind
本硕毕业于华中科技大学物流系统工程,毕业后在广州玄武无线科技有限公司从事JAVA开发。一年后离职,寻求转行;经过一年自学后成功转行;现在武汉科大讯飞____科讯嘉联___技术运营部,担任NLP算法工程师。
展开
-
ChatGLM大模型推理加速之Speculative Decoding
大模型时代,模型的推理效率尤为重要,推理速度的快慢和模型生成的质量好坏对用户的体验影响很大。大模型生成速度慢,生成效果好;小模型推理速度快,但是推理质量稍差。当前大模型推理速度满不足不了业务实效性需求,小模型不能满足业务质量指标的情况下存不存在一种业务在实际落地的时候最优选择呢?google论文和deepmind论文给出了相同思路的解决方案,也就是这篇博客要谈到的东西Speculative Decoding,翻译为推测解码。原创 2023-12-14 22:30:00 · 1601 阅读 · 2 评论 -
ChatGLM的int8量化以及由此对量化的梳理总结
目前随着模型规模越来越大,对于没有很多算力的人来说,使用大模型的门槛越来越高,因此ChatGLM提供的模型支持,fp16、int8和int4的量化,来降低加载模型的显存,让更多的人能使用该大模型。原创 2023-08-21 21:00:00 · 3601 阅读 · 4 评论 -
FasterTransformer 2.0优化——公开课听课笔记
2020.04.09英伟达就FasterTransformer 2.0做了一个线上的公开课分享,由于老板的要求,我也报名听课了。做了一份听课笔记,分享一下。这里的优化主要是由底层的CUDA和cuBLAS编程支撑的,这个代码我是没有去看的,也是看不懂的。听课笔记主要就宏观的原理上进行一个总结。目录一、FasterTransformer 1.0版关于encoder的优化二、F...原创 2020-04-19 22:34:27 · 3087 阅读 · 0 评论 -
模型蒸馏原理和bert模型蒸馏以及theseus压缩实战
模型蒸馏原理和bert模型蒸馏实战原创 2021-04-10 16:38:59 · 6713 阅读 · 10 评论 -
pytorch原生支持的apex混合精度和nvidia apex混合精度AMP技术加速模型训练效果对比
apex的AMP库和pytorch中自带的amp——自动混合精度了解一下算法原理参考文章Pytorch 1.6使用自动混合精度训练(AMP)使用AMP得到更高效的PyTorch模型...原创 2020-11-12 17:38:09 · 12541 阅读 · 17 评论 -
基于pytorch多GPU单机多卡训练实践
基于pytorch多GPU模型训练实践原创 2020-09-02 18:35:05 · 11493 阅读 · 25 评论 -
基于TensorRT和onnxruntime下pytorch的Bert模型加速对比实践
一、TensorRT安装二、torch2trt简单示例三、Bert模型加速1、pytorch下的Bert模型通过torch2trt转化为TensorRt可使用的格式原创 2021-07-19 22:07:57 · 9416 阅读 · 39 评论