大模型
文章平均质量分 96
大模型训练推理相关
colourmind
本硕毕业于华中科技大学物流系统工程,毕业后在广州玄武无线科技有限公司从事JAVA开发。一年后离职,寻求转行;经过一年自学后成功转行;现在武汉科大讯飞____科讯嘉联___技术运营部,担任NLP算法工程师。
展开
-
大模型推理框架Vllm和TensorRT-LLM在ChatGLM2-6B模型的推理速度对比
这篇博客就专门对语言大模型推理框架Vllm和TensorRT-LLM在ChatGLM2-6B模型上的推理速度和效果进行一个对比。主要的内容分为三块,第一块简单介绍一下vllm和TensorRT-llM框架的特色和基本技术点,由于篇幅的原因关于技术的原理就不做多的介绍(每个技术点都可以拧出来写一篇文章,工作量非常大);第二块内容就是介绍一下环境安装和重要的API,并且提供一个web推理服务;最后一块内容就是展示一下具体的推理案例,在推理速度和推理质量上进行对比原创 2024-04-24 00:30:00 · 1738 阅读 · 0 评论 -
基于torch.compile和gptfast代码风格实现ChatGLM模型推理加速
torch2.0发布以后模型训练和推理可以实现一行代码加速,试用之后发现效果并不明显。随后gptfast项目也发布,表明它确实是可以实现模型推理的加速,看来之前试用是打开方式不对。最近参考gptfast项目,实现了对ChatGLM模型推理的加速,主要的原理是借助torch.compile对模型推理过程中构建计算图,实现加速。原创 2024-03-20 23:00:00 · 1045 阅读 · 0 评论 -
ChatGLM大模型推理加速之Speculative Decoding
大模型时代,模型的推理效率尤为重要,推理速度的快慢和模型生成的质量好坏对用户的体验影响很大。大模型生成速度慢,生成效果好;小模型推理速度快,但是推理质量稍差。当前大模型推理速度满不足不了业务实效性需求,小模型不能满足业务质量指标的情况下存不存在一种业务在实际落地的时候最优选择呢?google论文和deepmind论文给出了相同思路的解决方案,也就是这篇博客要谈到的东西Speculative Decoding,翻译为推测解码。原创 2023-12-14 22:30:00 · 1601 阅读 · 2 评论 -
rwkv模型lora微调之accelerate和deepspeed训练加速
对rwkv_1.5B模型进行了预研和业务领域的验证。为了快速验证,采用了lora+accelerate+deepspeed的训练方式。微调的过程中对rwkv模型认识更加深刻,同时对于docker训练环境搭建也更加熟悉了原创 2023-11-02 23:15:00 · 8121 阅读 · 0 评论 -
ChatGLM的int8量化以及由此对量化的梳理总结
目前随着模型规模越来越大,对于没有很多算力的人来说,使用大模型的门槛越来越高,因此ChatGLM提供的模型支持,fp16、int8和int4的量化,来降低加载模型的显存,让更多的人能使用该大模型。原创 2023-08-21 21:00:00 · 3599 阅读 · 4 评论