书生·浦语大模型实战:部署八戒InternLM2-Chat-1.8B(lesson 2-2)

书生·浦语大模型实战系列文章目录

书生·浦语大模型全链路开源体系发展历程和特点(lesson 1)
部署 InternLM2-Chat-1.8B(lesson 2-1)
部署八戒demo InternLM2-Chat-1.8B(lesson 2-2)
部署InternLM2-Chat-7B 模型(lesson 2-3)
部署浦语·灵笔2 模型(lesson 2-4)
部署InternLM Studio“茴香豆”知识助手(lesson 3)
XTuner 微调 LLM: 1.8B、多模态和 Agent(lesson 4
LMDeploy 量化部署 LLM & VLM 实践(lesson 5)
Lagent & AgentLego 智能体应用搭建(lesson 6)
OpenCompass 大模型评测实战(lesson 7)


一、简介

八戒-Chat-1.8B、Chat-嬛嬛-1.8B、Mini-Horo-巧耳 均是在第一期实战营中运用 InternLM2-Chat-1.8B 模型进行微调训练的优秀成果。其中,八戒-Chat-1.8B 是利用《西游记》剧本中所有关于猪八戒的台词和语句以及 LLM API 生成的相关数据结果,进行全量微调得到的猪八戒聊天模型。作为 Roleplay-with-XiYou 子项目之一,八戒-Chat-1.8B 能够以较低的训练成本达到不错的角色模仿能力,同时低部署条件能够为后续工作降低算力门槛。
模型链接如下:
八戒-Chat-1.8B:https://www.modelscope.cn/models/JimmyMa99/BaJie-Chat-mini/summary
Chat-嬛嬛-1.8B:https://openxlab.org.cn/models/detail/BYCJS/huanhuan-chat-internlm2-1_8b
Mini-Horo-巧耳:https://openxlab.org.cn/models/detail/SaaRaaS/Horowag_Mini

二、配置基础环境

运行环境命令:

conda activate demo

使用 git 命令来获得仓库内的 Demo 文件:

cd /root/
git clone https://gitee.com/InternLM/Tutorial -b camp2
# git clone https://github.com/InternLM/Tutorial -b camp2
cd /root/Tutorial

在这里插入图片描述

三、下载 Chat-八戒 Demo

在 Web IDE 中执行 bajie_download.py:

python /root/Tutorial/helloworld/bajie_download.py

在这里插入图片描述
下载结束。

四、设置服务器

4.1 开启服务

conda activate demo
streamlit run /root/Tutorial/helloworld/bajie_chat.py --server.address 127.0.0.1 --server.port 6006

在这里插入图片描述

> Collecting usage statistics. To deactivate, set browser.gatherUsageStats to False.
 (正在收集使用情况统计信息。若要停用,请将browser.gatherUsageStats设置为False。)   
> You can now view your Streamlit app in your browser.   
> URL: http://127.0.0.1:6006

4.2 配置服务器调试

远程服务器设置完毕,已经开始运行。
接下来通过本地计算机通过ssh远程设置服务器,将服务器的6006端口和本地客户端计算机端口建立隧道转发,以便本地浏览器实现远程访问。
在本地客户端计算机上,使用快捷键组合 Windows + R(Windows 即开始菜单键)打开 PowerShell,用命令行方式输入以下指令:

# 从本地使用 ssh 连接 studio 端口
# 将下方端口号 38374 替换成自己的端口号
ssh -CNg -L 6006:127.0.0.1:6006 root@ssh.intern-ai.org.cn -p 38374

在这里插入图片描述
Connection refused
连接被拒绝
怀疑是被防火墙挡住了,换成7860端口再试(本机该端口,一直被SD正常使用,防火墙不会阻止):
在这里插入图片描述
Connection timed out
连接超时
事实证明,这样是行不通的。

4.3 运行

查看了教程,原来这个端口号是在服务器里指定了的,每个id对应的端口都不一样。
到开发机(服务器)上查询到ssh密码和实际端口:
在这里插入图片描述
ssh -p之后的数字才是真正的端口号,记住这个数字,同时复制密码。回到本机cmd窗口下:
再次输入建立隧道转发的指令:

连接成功,会要求输入密码,直接粘贴,然后回车就行了,远程ai服务已经启动。
注意:密码粘贴后是看不到的,直接回车即可。如果错了会有提示,正确了没有任何提示。
在这里插入图片描述
打开浏览器,输入http://127.0.0.1:6006 后回车,等待加载。结果再次报错,显存爆掉了,看来8g显存不够用。

在这里插入图片描述
爆掉显存后,服务器端的资源占用情况如下:
在这里插入图片描述
显存处于100%状态,不能自动恢复。只能关机重启,再次启动后,调试窗口可以看到载入模型的进度和状态。
在这里插入图片描述
服务器资源占用情况:
在这里插入图片描述
浏览器出现界面:
在这里插入图片描述
这时候服务器占用如下:
在这里插入图片描述
开始对话,速度很慢,几乎一个字一个字的蹦出来,到后来需要2s才能出来一个字。下面这段回答内容,用时近十分钟。看服务器显存卡在99.99%上,虽然没爆,但已经严重堵塞。
在这里插入图片描述
没办法,只能将服务器停机,然后开始升级配置,如下:
在这里插入图片描述
当使用a100的30%算力和24g显存时,再次启动服务,资源占用如下
在这里插入图片描述

五、实际运行

这次非常流畅,回答速度迅捷如飞,体验很好。以下是随便问的一些问题:
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

至此,八戒demo测试完毕。安装调试没啥难度,5分钟内解决了端口问题和服务器升级操作。

六、八戒demo小结:

发现一些小问题,比如chat类ai的通病,无法记住前面的内容,所以角色无法定义。另外,答案质量不是很高。虽然8g可以跑,但是太勉强。说明这个应用,8g显存是跑不起来的。

  • 30
    点赞
  • 18
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
八戒-Chat是利用《西游记》剧本中所有关于猪八戒的台词和语句,以及Chat-GPT-3.5生成的相关问题结果,基于Internlm进行QLoRA微调得到的模仿猪八戒语气的聊天语言模型GPT, 通常指的是“Generative Pre-trained Transformer”(生成式预训练转换器),是一个在自然语言处理(NLP)领域非常流行的深度学习模型架构。GPT模型由OpenAI公司开发,并在多个NLP任务上取得了显著的性能提升。 GPT模型的核心是一个多层Transformer解码器结构,它通过在海量的文本数据上进行预训练来学习语言的规律。这种预训练方式使得GPT模型能够捕捉到丰富的上下文信息,并生成流畅、自然的文本。 GPT模型的训练过程可以分为两个阶段: 预训练阶段:在这个阶段,模型会接触到大量的文本数据,并通过无监督学习的方式学习语言的结构和规律。具体来说,模型会尝试预测文本序列中的下一个词或短语,从而学习到语言的语法、语义和上下文信息。 微调阶段(也称为下游任务训练):在预训练完成后,模型会被应用到具体的NLP任务中,如文本分类、机器翻译、问答系统等。在这个阶段,模型会使用有标签的数据进行微调,以适应特定任务的需求。通过微调,模型能够学习到与任务相关的特定知识,并进一步提高在该任务上的性能。 GPT模型的优势在于其强大的生成能力和对上下文信息的捕捉能力。这使得GPT模型在自然语言生成、文本摘要、对话系统等领域具有广泛的应用前景。同时,GPT模型也面临一些挑战,如计算资源消耗大、训练时间长等问题。为了解决这些问题,研究人员不断提出新的优化方法和扩展模型架构,如GPT-2、GPT-3等,以进一步提高模型的性能和效率。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值