【无标题】

llama3相比于llama2改变了什么

依然是transfomer结构,70b最强模型,最大亮点:考虑推理成本

在推理阶段:GQA

kv-cache:推理时重复计算了前面词的kv,所以缓存起来。
GQA减少了kv-cache,通过减少多头注意力kv的size。
eg:本来是q对应各自的kv,但这里让两个q共用一组kv,把两组kv平均(或者随机取一个)

编码词表

bbpe:把句子变成utf-8字节序列,屏蔽掉语言差异
词表越大,词义越强
token词表llama3是128k,llama2是32k,增加编码效率(token语义含量)

数据合成

训llama3之前,先用llama2半自动生成一些数据,然后用打分器打分,再训llama3
很多产品都是这样利用gpt的

模型优化

scaling law:模型大小*20=最优训练数据量
次优:
1 固定模型大小,提高训练数据量
2 固定训练数据量,提高模型大小
大模型推理成本越来越高

DPO训练方法

之前是RLHF:
训练奖励模型:人标注训练评分器
RL算法提升模型得分:模型生成内容再评分器尽可能高分,但不能太偏离原来的模型

DPO:通过推导把评分器消掉了,正样本高分负样本低分的同时不偏离标准模型太远

其他

搜索增强:webGPT webGLM

webGLM:
网上搜索、过滤
大模型汇总,输出多个答案
人类偏好感知评分器返回最高得分(样本:点赞数)

RAG:检索增强生成 大模型的互补技术

可解释性
bert是embedding

  • 7
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值