第5章
这章主要讲了量化部署的方法,使用量化和降低显存使用的方式可以显著降低模型的显存需求,代价是性能的降低和回应时间的增加。
降低显存用的是LMDeploy中的
--cache-max-entry-count 指令
量化也是用lmdeploy
想要本地连接远程服务器部署的模型时,lmdeploy可以提供运行web端并设置端口参数,然后就是连接ssh就行
LMDeploy也支持代码集成,设置参数时需要在python文件添加以下内容
backend_config = TurbomindEngineConfig(cache_max_entry_count=0.2)
pipe = pipeline('/root/internlm2-chat-1_8b', backend_config=backend_config)
backend_config用于设置参数。
第6章
Lagent 是一个轻量级开源智能体框架,算是一个构建智能体的高效工具,还自备一些增强模型能力的工具。
agentlego直接提供插件,组合更加方便
想更改agentlego使用的模型需要修改lagent_agent.py文件,使用量化模型也是同理
使用时先设置agent,agent类,再确定要使用的工具,工具可以通过修改agentlego/tools/__init__.py 文件,需要先导入自己的自定义工具,再在all中加入工具名
第7章
非常简单的任务,完成几个命令行就能完成对大模型的评测,主要是导入测评集和环境需要时间,评测需要半小时以上。按照教程基本可以完美运行。使用的c_eval数据集是用于评估大模型中文环境下性能的数据集,覆盖了52个学科和4个难度,测评范围非常全面