- 博客(5)
- 收藏
- 关注
原创 NVIDIA AI Enterprise 科普 | Triton 推理服务器 & TensorRT-LLM 两大组件介绍及实践
模型库中的每个模型都必须包含⼀个模型配置,该配置提供有关模型的必需和可选信息。)配置,使⽤当前最新的NVIDIA官⽅提供的镜像tritonserver:23.12-trtllm-python-py3,此版本镜像部分配置如下,⼏乎包含了运⾏TensorRT-LLM的所有环境,详情请参考此链接:(TensorRT-LLM 包含用于创建执行这些 TensorRT 引擎的 Python 和 C++ 运行时的组件,还包括与 NVIDIA Triton 推理服务器集成的后端,用于提供大模型服务的生产级系统。
2024-06-20 17:25:28
1065
转载 使用 NVIDIA RTX GPU 定制神经机器翻译模型(第 2 部分)
使用 NVIDIA RTX 5000 Ada 定制神经机器翻译模型(第 1 部分) (qq.com)在第1部分中,我们介绍了使用 NeMo 运行英-中翻译模型的示例,并评估其性能。在这篇文章中,我们将继续指导您如何定制数据集,并在该数据集上微调模型。
2024-05-31 11:31:05
25
转载 使用 NVIDIA RTX 5000 Ada 定制神经机器翻译模型(第 1 部分)
近年来,有自注意力机制 Transformer 模型的发展对复杂语言建模任务产生了深远的影响,这些任务的目标是预测句子中下一个即将出现的分词,而 NMT 是其中一个典型的应用例子。在研究发展的进程中,NMT 的翻译质量得益于递归神经网络(RNN)、长短期记忆网络(LSTM)、基于注意力机制的编码器-解码器网络和仅有解码器的 LLM 模型。下一步是在预训练的模型之上使用处理后的数据集进行微调。在这篇文章中,我们将介绍使用 NeMo 的前提条件,使用 NeMo 进行预训练模型推理,并评估预训练模型的性能。
2024-05-22 13:49:30
27
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人