经过周末的折腾,我的jetson xavier NX终于跑起来来了qwen 1.8B 的模型,推理速度还行,大部分Promotion都能执行,有些时候也会把内存耗光导致死机。
现在只有flash-attention2不支持,回退到flash-attention1时,返现cuda code也不支持。尝试先编译完再修改代码。
pip install csrc/layer_norm 这个东东编译真是慢啊,一上午也没编译完。
经过周末的折腾,我的jetson xavier NX终于跑起来来了qwen 1.8B 的模型,推理速度还行,大部分Promotion都能执行,有些时候也会把内存耗光导致死机。
现在只有flash-attention2不支持,回退到flash-attention1时,返现cuda code也不支持。尝试先编译完再修改代码。
pip install csrc/layer_norm 这个东东编译真是慢啊,一上午也没编译完。