百川大模型【Baichuan-13B】发布:更大尺寸、更多数据、对话能力更强

欢迎关注公众号 - 【AICV与前沿】,一起学习最新技术吧

欢迎关注公众号 - 【AICV与前沿】,一起学习最新技术吧

项目地址:https://github.com/baichuan-inc/Baichuan-13B
Hugging Face:
https://huggingface.co/baichuan-inc/Baichuan-13B-Chat
https://huggingface.co/baichuan-inc/Baichuan-13B-Base

Baichuan-13B 是由百川智能继 Baichuan-7B 之后开发的包含 130 亿参数的开源可商用的大规模语言模型,在权威的中文和英文 benchmark 上均取得同尺寸最好的效果。本次发布包含有预训练 (Baichuan-13B-Base) 和对齐 (Baichuan-13B-Chat) 两个版本。

Baichuan-13B 有如下几个特点:

1. 更大尺寸、更多数据:Baichuan-13B 在 Baichuan-7B 的基础上进一步扩大参数量到 130 亿,并且在高质量的语料上训练了 1.4 万亿 tokens,超过 LLaMA-13B 40%,是当前开源 13B 尺寸下训练数据量最多的模型。支持中英双语,使用 ALiBi 位置编码,上下文窗口长度为 4096。

2. 同时开源预训练和对齐模型:预训练模型是适用开发者的『 基座 』,而广大普通用户对有对话功能的对齐模型具有更强的需求。因此本次开源我们同时发布了对齐模型(Baichuan-13B-Chat),具有很强的对话能力,开箱即用,几行代码即可简单的部署。

3. 更高效的推理:为了支持更广大用户的使用,我们本次同时开源了 int8 和 int4 的量化版本,相对非量化版本在几乎没有效果损失的情况下大大降低了部署的机器资源门槛,可以部署在如 Nvidia 3090 这样的消费级显卡上。

4. 开源免费可商用:Baichuan-13B 不仅对学术研究完全开放,开发者也仅需邮件申请并获得官方商用许可后,即可以免费商用。

模型细节

在这里插入图片描述

推理性能

Baichuan-13B 使用了 ALiBi 线性偏置技术,相对于 Rotary Embedding 计算量更小,对推理性能有显著提升;与标准的 LLaMA-13B 相比,平均推理速度 (tokens/s) 实测提升 31.6%:
在这里插入图片描述

部署体验

  1. 从https://github.com/baichuan-inc/Baichuan-13B下载代码

  2. 在Baichuan-13B文件夹下新建文件夹baichuan-inc,然后从https://huggingface.co/baichuan-inc/Baichuan-13B-Chat置于baichuan-inc文件夹中

  3. 安装依赖

pip install -r requirements.txt

4.命令行方式体验

运行 python cli_demo.py, 占用内存如下图
在这里插入图片描述
体验效果如下,很好很强大!!!

在这里插入图片描述在这里插入图片描述
Baichuan-13B同时支持量化方式,加载模型代码修改为如下即可,在cli_demo.py中注意要注释掉device_map="auto"这一句,否者量化不成功,该语句会把原始精度模型直接加载到 GPU 。

# int8量化
model = AutoModelForCausalLM.from_pretrained("baichuan-inc/Baichuan-13B-Chat", torch_dtype=torch.float16, trust_remote_code=True)
model = model.quantize(8).cuda() 
# int4 =量化
model = AutoModelForCausalLM.from_pretrained("baichuan-inc/Baichuan-13B-Chat", torch_dtype=torch.float16, trust_remote_code=True)
model = model.quantize(4).cuda()

官方给出的量化前后占用内存对比如下。
在这里插入图片描述
但是我量化后推理体感变慢了??

  1. 网页方式

基于streamlit框架,运行以下然后将出现的地址复制到浏览器打开即可。

streamlit run web_demo.py

<think>好的,用户想要了解本地部署大模型有哪些推荐。首先,我需要明确本地部署的需求,通常用户可能关注模型性能、资源消耗、开源许可等因素。然后,我需要回忆当前主流的大模型,尤其是适合本地部署的。 首先,Meta的LLaMA系列应该是一个重点,特别是LLaMA 2,因为它是开源的,适合商用,而且有不同规模版本,适合不同硬件配置。接下来,Alpaca和Vicuna是基于LLaMA微调的,可能也是不错的选择,但需要确认它们的许可协议是否可以商用。 然后,Falcon系列,尤其是Falcon-40B和7B,由阿联酋的团队开发,Apache 2.0协议,商用友好。这也是一个很好的选项。还有Bloom,作为多语言模型,适合需要多语言支持的用户,但参数量大可能需要高资源。 中国的模型比如ChatGLM-6B,清华开发的,对中文优化,这对中文用户很重要。同样,百川和Aquila也是国内开发的,应该考虑进去。需要检查它们的开源协议和部署要求。 接着,考虑模型大小和硬件需求。例如,7B模型可能在消费级GPU上运行,而更大的模型如40B可能需要专业级硬件。用户可能没有说明他们的硬件配置,所以需要分层次推荐,提供不同规模的模型。 还要注意模型的优化版本,比如经过量化的模型,如LLaMA.cpp或GPTQ版本,可以降低资源消耗。这对于资源有限的用户很重要,需要提到这些优化方法。 另外,用户可能需要知道部署工具,比如Hugging Face的Transformers库、vLLM、llama.cpp等,这些工具能简化部署过程,应该一并推荐。 需要验证每个模型的许可协议,特别是商用情况,比如LLaMA 2允许商用,而原始的LLaMA可能不允许。确保推荐的模型符合用户潜在的使用场景,比如企业部署可能需要商用许可。 最后,总结各个模型的优缺点,按不同需求分类,比如中英文支持、硬件要求、许可协议等,帮助用户根据自身情况选择。</think>以下是本地部署大模型的推荐清单及关键信息,按不同需求分类整理: --- ### **一、通用型大模型** 1. **LLaMA 2** - 开发者:Meta - 特点:开源商用许可,7B/13B/70B参数版本,支持中英文,推理性能优秀 - 硬件需求: - 7B:10GB显存(FP16)或量化后消费级GPU可运行 - 70B:需专业级GPU(如A100) - 工具支持:Hugging Face Transformers、llama.cpp 2. **Falcon** - 开发者:阿联酋TII - 特点:Apache 2.0协议,7B/40B参数版本,专注推理和代码能力 - 硬件需求: - 7B:消费级GPU(RTX 3090) - 40B:需多卡并行(如2×A100) --- ### **二、中文优化模型** 1. **ChatGLM3-6B** - 开发者:清华大学 - 特点:中英双语,针对中文问答优化,支持LoRA微调 - 硬件需求:最低6GB显存(量化后) - 部署工具:Hugging Face + PyTorch 2. **百川2(Baichuan2)** - 开发者:百川智能 - 特点:7B/13B参数,Apache 2.0协议,中文知识增 - 硬件需求:13B需16GB显存(推荐A10/A100) --- ### **三、轻量级模型** 1. **Mistral-7B** - 开发者:Mistral AI - 特点:7B参数性能接近13B模型,支持长上下文(8k tokens) - 硬件需求:消费级GPU(RTX 4080)可流畅运行 2. **Phi-2** - 开发者:Microsoft - 特点:2.7B参数小模型,数学/逻辑推理能力 - 硬件需求:4GB显存即可部署 --- ### **四、专业领域模型** 1. **Code Llama** - 开发者:Meta - 特点:编程专用,支持Python/C++/Java等,7B~34B参数 - 部署建议:需16GB+显存运行34B版本 2. **Bloomz** - 开发者:BigScience - 特点:多语言支持(46种语言),7B~176B参数 - 注意:176B需分布式部署 --- ### **五、部署优化方案** 1. **量化压缩** - 使用GGUF/GPTQ格式(如TheBloke社区模型) - 示例:LLaMA-7B可压缩至4GB内存占用 2. **推理框架选择** - 低资源场景:llama.cpp(CPU+RAM推理) - GPU加速:vLLM或Text Generation Inference --- ### **六、选型建议表** | 需求场景 | 推荐模型 | 显存要求 | 优势 | |---------|---------|---------|-----| | 中文对话 | ChatGLM3-6B | ≥6GB | 中文优化,部署简单 | | 低成本推理 | Mistral-7B | 8GB | 性能/资源比高 | | 商用授权 | Falcon-7B | 10GB | Apache 2.0协议 | | 代码生成 | Code Llama-7B | 10GB | 编程任务专用 | --- **部署步骤参考**: 1. 从Hugging Face下载模型 2. 使用llama.cpp或Ollama快速部署 3. 通过LangChain等框架集成应用 建议根据实际硬件条件和任务复杂度,优先测试量化版本(如Q4_K_M)。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值