- 博客(15)
- 资源 (4)
- 问答 (1)
- 收藏
- 关注
原创 [论文分享]LLM推理加速——FLASHDECODING++
当计算新的部分softmax结果时,采用同步softmax操作更新先前的部分softmax结果。为解决这些问题,研究团队提出了一种名为FlashDecoding++的更快的GPU实现方法,通过解决不同输入的最大值问题、优化flat GEMM操作和根据输入动态性和硬件配置进行启发式数据流优化,实现了对主流LMs的加速。未充分利用flat GEMM计算:在LLM推理中,矩阵执行GEMM操作的形状是扁平的,这导致未充分利用计算和超过50%的性能损失(在之前的设计中,如cuBLAS、CUTLASS等)。
2023-11-24 15:32:35 526 1
原创 昇腾平台LLM pytorch推理环境搭建
当前用户下执行npu-smi info是否可以查看到gpu信息,如果不能,则表示驱动安装错误,需要在安装命令加上 --install-for-all。检查NPU是否正常在位可执行lspci | grep d802命令,如果服务器上有 N路NPU,回显N行含“d802”字段,则表示NPU正常在位。资源下载地址:https://www.hiascend.com/developer/download。通过执行npu-smi info命令查看。支持的PyTorch版本。支持的Adapter版本。
2023-11-23 18:06:01 3519 3
原创 成功编译TensorRT-LLM
运行步骤参考/root/autodl-tmp/files/TensorRT-LLM/examples/gpt目录下的readme文档。由于系统中的cudnn是deb安装的,所以去Nvidia下载deb安装,可以直接对旧版本进行覆盖。于是决定通过在公有云申请资源,通过配置TRT-LLM编译依赖环境的方式进行编译。启动已下载的docker镜像,查看编译TRT-LLM的主要依赖项版本。模型保存在/root/autodl-tmp/models/gpt/公有云选择AudoDL,理由简单易用,价格便宜。
2023-11-09 17:01:03 1049 1
原创 大模型推理优化--TensorRT-LLM初体验
TensorRT-LLM可以视为TensorRT和FastTransformer的结合体,旨为大模型推理加速而生。
2023-10-20 15:16:27 2884 2
原创 ChatGLM-6B微调实践与问题汇总(fine-tune+p-tuning+知识遗忘解决尝试)
chatglm-6b,全量fine-tune和p-tuning复现。对于训练后丧失了原有的对话功能的现象进行初步尝试,并收获效果。
2023-06-06 11:51:45 7469 6
原创 pytorch转onnx报错: Failed to export an ONNX attribute ‘onnx::Gather’, since it’s not constant
python转onnx报错 Failed to export an ONNX attribute ‘onnx::Gather’, since it’s not constant, please try to make things (e.g., kernel size) static if possible
2023-02-10 15:07:49 891
bert测试数据集GLUE("CoLA", "SST", "MRPC"等)
2021-06-30
国外经典教材《无线通信原理与应用》
2011-08-12
QT调试报错 the cdb process terminated
2016-09-01
TA创建的收藏夹 TA关注的收藏夹
TA关注的人