ChatGLM模型实际应用的知识点

WHY-233

已于 2024-01-10 20:28:38 修改

阅读量1.1k

点赞数 22

分类专栏：大模型文章标签：自然语言处理 nlp

于 2024-01-10 20:23:22 首次发布

本文链接：https://blog.csdn.net/GS2333/article/details/135504497

版权

大模型专栏收录该内容

3 篇文章 0 订阅

订阅专栏

如何围绕GLM打造行业/领域模型

GLM、百川、通义千问等模型的性能已经得到了广泛的认可，本文主要根据GLM的公开讲座记录如何使用国产大模型做一些下游应用部署。

GLM的特点

模型优势

指令理解能力强：由于使用双向注意力建模了输入指令
无损量化：INT4的量化下仍表现出较好的性能（量化效果好）
训练效率高：需要的训练样本较少

代码/部署优势

训练框架成熟：支持多机、多卡
高效推理框架：支持加速、量化、分布式
跨平台：支持华为、海光、英伟达等平台

GLM3的新能力

多模态看图CogVLM
代码增强Code Interpreter
网络搜索增强WebGLM
语义能力和逻辑能力
更小的模型（1.5,3,6）

行业模型的打造

模型不能当知识库用，glm或者GPT4模型只有70%-85%的准确率，知识库可以达到95%。

模型选择

模型选择上划分

低资源-6b
数据大或需要推理能力-130b
代码插件-CodeGeeX
代码问答-6b

任务-方法上划分

覆盖面广，没见过的领域-Pre-training
垂直领域数据量小、通用技能、垂直技能（finetuning）
垂直领域数据量大、低资源（P-tuning）
时效性-knowledge-base
推理能力-需要更大的模型

数据选择

多样性？ --涵盖多种模板
智能化？ --高质量人工标注
数据分布合理？ --分布会引入不必要的倾向性

预训练语料

语料准备

语料准备要有以下特性：
- 丰富度
- 权威性
- 时效性
语料要做以下处理：
- 过滤（去除空格、表情包、隐私数据、不良内容）（主要使用正则）
- 采样（保证数据分布合理，根据所需要领域做重点设置）
- 去重（删除相似度高的语料，使用SimHash等进行模糊去重、使用基于子串的精确去重）
- 混合（控制比例）
STF语料

垂直大模型的探索

阅读大量本文（增量预训练）
与行业对话场景对齐（高质量行业对话）
优化输出结果质量和可靠性（工程化优化方案）

常见问题

乱码
冗余信息
其他

模型训练

语料很大的时候学习率要很低（1-2个G算少的）
batchsize可以调一下
一般一轮就够了

大模型评测

构造行业内的问题：
- 客观：就是客观题
- 主观：1.中每个任务类型的问题构建10-20道，之后再在2.中做人工评测

应用示例

在这里插入图片描述

行业模型的行业应用

应用场景

在这里插入图片描述

技术挑战

在这里插入图片描述

金融方案架构

在这里插入图片描述

知识库问答

在这里插入图片描述

研报案例1

在这里插入图片描述](https://img-blog.csdnimg.cn/direct/16d433218e1f4241967ec7cf380fdf8c.png)

研报不好写，但是参考人的行为方式可以做好
人先会看很多相似的研报，然后再根据数据写
读三五篇研报，生成别人研报的大纲（微调）
根据大纲生成段落
数据更新

研报案例2

在这里插入图片描述

WHY-233

关注

22
点赞
踩
23

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录