【无标题】

最新推荐文章于 2024-07-15 15:20:24 发布

herbal_medicine

最新推荐文章于 2024-07-15 15:20:24 发布

阅读量141

点赞数 7

文章标签：人工智能深度学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/herbal_medicine/article/details/140128748

版权

day1: llama3 ChatGLM

llama3相比于llama2改变了什么
其他
- 搜索增强：webGPT webGLM
RAG：检索增强生成大模型的互补技术

llama3相比于llama2改变了什么

依然是transfomer结构，70b最强模型，最大亮点：考虑推理成本

在推理阶段：GQA

kv-cache：推理时重复计算了前面词的kv，所以缓存起来。
GQA减少了kv-cache，通过减少多头注意力kv的size。
eg:本来是q对应各自的kv，但这里让两个q共用一组kv，把两组kv平均（或者随机取一个）

编码词表

bbpe：把句子变成utf-8字节序列，屏蔽掉语言差异
词表越大，词义越强
token词表llama3是128k，llama2是32k，增加编码效率（token语义含量）

数据合成

训llama3之前，先用llama2半自动生成一些数据，然后用打分器打分，再训llama3
很多产品都是这样利用gpt的

模型优化

scaling law：模型大小*20=最优训练数据量
次优：
1 固定模型大小，提高训练数据量
2 固定训练数据量，提高模型大小
大模型推理成本越来越高

DPO训练方法

之前是RLHF：
训练奖励模型：人标注训练评分器
RL算法提升模型得分：模型生成内容再评分器尽可能高分，但不能太偏离原来的模型

DPO：通过推导把评分器消掉了，正样本高分负样本低分的同时不偏离标准模型太远

其他

搜索增强：webGPT webGLM

webGLM：
网上搜索、过滤
大模型汇总，输出多个答案
人类偏好感知评分器返回最高得分（样本：点赞数）

RAG：检索增强生成大模型的互补技术

可解释性
bert是embedding

herbal_medicine

关注

7
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
【无标题】

token词表llama3是128k，llama2是32k，增加编码效率（token语义含量）eg:本来是q对应各自的kv，但这里让两个q共用一组kv，把两组kv平均（或者随机取一个）训llama3之前，先用llama2半自动生成一些数据，然后用打分器打分，再训llama3。RL算法提升模型得分：模型生成内容再评分器尽可能高分，但不能太偏离原来的模型。DPO：通过推导把评分器消掉了，正样本高分负样本低分的同时不偏离标准模型太远。依然是transfomer结构，70b最强模型，最大亮点：考虑推理成本。
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。