项目地址:https://github.com/billvsme/my_openai_api
单文件实现OpenAI格式api(包含流式响应)
部署你自己的OpenAI 格式api😆,基于flask, transformers (使用 Baichuan2-13B-Chat-4bits 模型,可以运行在单张Tesla T4显卡) ,实现以下OpenAI接口:
- Chat /v1/chat/completions
- Models /v1/models
- Completions /v1/completions
同时实现接口相应的STREAMING模式,保证在langchain中基础调用
起因
目前Baichuan2-13B-Chat int4量化后可在单张tesla T4显卡运行,并且效果和速度还可以,可以和gpt-3.5媲美。
- Baichuan2-13B-Chat-4bits:https://huggingface.co/baichuan-inc/Baichuan2-13B-Chat-4bits
最低配置
需要16g显存&#