anthonix/llm.c: LLM training in simple, raw C/HIP for AMD GPUs (github.com)
llm.c for AMD devices
This is a fork of Andrej Karpathy's llm.c with support for AMD devices.
性能
在单个7900 XTX显卡上使用默认设置,目前的训练步骤耗时约为79毫秒,相比PyTorch的夜间版本(2.4.0.dev20240513)的约97毫秒,以及tinygrad的约440毫秒来说,表现更优。
对于多GPU训练,在装有四个7900 XTX显卡的机器上,吞吐量达到了每秒约210,000个令牌。
更新(2