ChatGLM模型实际应用的知识点
如何围绕GLM打造行业/领域模型
GLM、百川、通义千问等模型的性能已经得到了广泛的认可,本文主要根据GLM的公开讲座记录如何使用国产大模型做一些下游应用部署。
GLM的特点
模型优势
- 指令理解能力强:由于使用双向注意力建模了输入指令
- 无损量化:INT4的量化下仍表现出较好的性能(量化效果好)
- 训练效率高:需要的训练样本较少
代码/部署优势
- 训练框架成熟:支持多机、多卡
- 高效推理框架:支持加速、量化、分布式
- 跨平台:支持华为、海光、英伟达等平台
GLM3的新能力
- 多模态看图CogVLM
- 代码增强Code Interpreter
- 网络搜索增强WebGLM
- 语义能力和逻辑能力
- 更小的模型(1.5,3,6)
行业模型的打造
- 模型不能当知识库用,glm或者GPT4模型只有70%-85%的准确率,知识库可以达到95%。
模型选择
模型选择上划分
- 低资源-6b
- 数据大或需要推理能力-130b
- 代码插件-CodeGeeX
- 代码问答-6b
任务-方法上划分
- 覆盖面广,没见过的领域-Pre-training
- 垂直领域数据量小、通用技能、垂直技能(finetuning)
- 垂直领域数据量大、低资源(P-tuning)
- 时效性-knowledge-base
- 推理能力-需要更大的模型
数据选择
- 多样性? --涵盖多种模板
- 智能化? --高质量人工标注
- 数据分布合理? --分布会引入不必要的倾向性
预训练语料
- 语料准备要有以下特性:
-
- 丰富度
-
- 权威性
-
- 时效性
- 语料要做以下处理:
-
- 过滤(去除空格、表情包、隐私数据、不良内容)(主要使用正则)
-
- 采样(保证数据分布合理,根据所需要领域做重点设置)
-
- 去重(删除相似度高的语料,使用SimHash等进行模糊去重、使用基于子串的精确去重)
-
- 混合(控制比例)
- STF语料
垂直大模型的探索
- 阅读大量本文(增量预训练)
- 与行业对话场景对齐(高质量行业对话)
- 优化输出结果质量和可靠性(工程化优化方案)
常见问题
- 乱码
- 冗余信息
- 其他
模型训练
- 语料很大的时候学习率要很低(1-2个G算少的)
- batchsize可以调一下
- 一般一轮就够了
大模型评测
- 构造行业内的问题:
-
- 客观:就是客观题
-
- 主观:1.中每个任务类型的问题构建10-20道,之后再在2.中做人工评测
- 主观:1.中每个任务类型的问题构建10-20道,之后再在2.中做人工评测
应用示例
行业模型的行业应用
应用场景
技术挑战
金融方案架构
知识库问答
研报案例1
在这里插入图片描述](https://img-blog.csdnimg.cn/direct/16d433218e1f4241967ec7cf380fdf8c.png)
- 研报不好写,但是参考人的行为方式可以做好
- 人先会看很多相似的研报,然后再根据数据写
- 读三五篇研报,生成别人研报的大纲(微调)
- 根据大纲生成段落
- 数据更新
研报案例2