day1: llama3 ChatGLM
llama3相比于llama2改变了什么
依然是transfomer结构,70b最强模型,最大亮点:考虑推理成本
在推理阶段:GQA
kv-cache:推理时重复计算了前面词的kv,所以缓存起来。
GQA减少了kv-cache,通过减少多头注意力kv的size。
eg:本来是q对应各自的kv,但这里让两个q共用一组kv,把两组kv平均(或者随机取一个)
编码词表
bbpe:把句子变成utf-8字节序列,屏蔽掉语言差异
词表越大,词义越强
token词表llama3是128k,llama2是32k,增加编码效率(token语义含量)
数据合成
训llama3之前,先用llama2半自动生成一些数据,然后用打分器打分,再训llama3
很多产品都是这样利用gpt的
模型优化
scaling law:模型大小*20=最优训练数据量
次优:
1 固定模型大小,提高训练数据量
2 固定训练数据量,提高模型大小
大模型推理成本越来越高
DPO训练方法
之前是RLHF:
训练奖励模型:人标注训练评分器
RL算法提升模型得分:模型生成内容再评分器尽可能高分,但不能太偏离原来的模型
DPO:通过推导把评分器消掉了,正样本高分负样本低分的同时不偏离标准模型太远
其他
搜索增强:webGPT webGLM
webGLM:
网上搜索、过滤
大模型汇总,输出多个答案
人类偏好感知评分器返回最高得分(样本:点赞数)
RAG:检索增强生成 大模型的互补技术
可解释性
bert是embedding