这里qwen2使用的YARN长度外推
https://qwenlm.github.io/zh/blog/qwen2/
常见外推方法:需要训练和不需要训练
https://kexue.fm/archives/9859
1、model_max_length 32k
参考:
https://huggingface.co/Qwen/Qwen2-7B-Instruct/blob/main/config.json
config配置文件里也可以看到一些模型信息,能输入识别长度max_position_embeddings或model_max_length=32768;
vllm运行:
served_model_name参数可以自定义模型服务名称
docker run --gpus all