大模型LLM与agent

本文探讨了利用LLM的强大意图识别能力,构建以LLM为核心的控制中心,调用不同垂直领域的小模型的新型应用趋势。重点介绍了开源框架langchain和魔搭社区在这一领域的实践资源。
摘要由CSDN通过智能技术生成

最近,基于LLM强大的意图识别能力,采用LLM作为控制中心,调用各种垂直领域的小模型,这一研究方向比较热门,即大模型的agent应用。常用的开源框架:langchain。
魔搭社区:https://modelscope.cn/home

1. 模型下载

在modelscope上下载需要的模型文件,例如https://modelscope.cn/models上搜索某一模型。
如果是联网环境,可以通过脚本中指定ModelType参数,这样命令执行时会自动下载模型

from swift.llm import (
    get_model_tokenizer, get_template, inference, ModelType,
    get_default_template_type, inference_stream
)
model_type = ModelType.qwen1half_7b_chat

本次下载离线文件:chatglm2-6b,下载地址:https://modelscope.cn/models/ZhipuAI/chatglm2-6b/files

2. 环境配置

申请一台带GPU和cuda环境的Ubuntu服务器,安装swift。

pip install 'ms-swift[llm]' -U
pip install transformers==4.30.2

将下载好的llm模型文件放到某一路径以备调用,需要注意某些依赖包的版本要符合模型要求,例如chatglm2-6b的transformers版本如果为4.41.2时模型加载会报错。

3. 运行模型推理

from transformers import AutoTokenizer, AutoModel

path = "/mnt/glm2"
tokenizer = AutoTokenizer.from_pretrained(path, trust_remote_code=True)
model = AutoModel.from_pretrained(path, trust_remote_code=True, device='cuda')
model = model.eval()
while True:
	print("input your question:")
	input_text = input()
	response, history = model.chat(tokenizer, input_text, history=[])
	print(response)

4. 训练

参考文章:https://blog.csdn.net/weixin_48007632/article/details/140188530
以gemma-2为例,比较详细的介绍了从modelscope下载模型文件以及训练的过程。
LLM训练平台,例如LLaMA-Factory平台:https://blog.csdn.net/weixin_48007632/article/details/138819599

  • 6
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值