llama3.1 论文

最新推荐文章于 2024-09-15 13:26:49 发布

Tankoldbang

最新推荐文章于 2024-09-15 13:26:49 发布

阅读量201

点赞数 9

文章标签： llama nlp 语言模型

本文链接：https://blog.csdn.net/Tankoldbang/article/details/140848008

版权

导言

模型的卖点

模型的架构不是MOE 而是稠密的transformer

上下文 128k窗口

还有

模型训练的两阶段

三个关键点

data 15T token llama3.1

Scale 405B

SFT

RS 拒绝采样

DPO

指标表

MMLU （5-cot）

MMLU (o-shot,Cot)

这里的小细节可以调看哪个shot比较好，哪个用Cot比较好

MMLU-Pro新出的指标

IFEval 指令评测

Math评测上

70B和405B 基本上差距不大

有可能评测太老了不能体现出他们的区别

Key capabilities

Tool use

Multi-lingual 多语言

MISTRAL 发布新的MOE的新

架构方面

分词器由 SentencePiece 换为了 Tiktoken，与 GPT4 保持一致，可以更有效地对语言进行编码

pre-training

4点

怎么找语料

确定scaling law

pre-training data

其实视频也行

PII过滤就是个人信息

对于数学和代码怎么处理

发现markdown对模型有害

去重

三个方法 URL

文档去重 MinHash 10亿

行级别的去重

n-gram

token-distribution 与其他的算KL散度

用模型来分类器

代码和推理数据

3.1.3

退火数据

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

Tankoldbang

关注关注

9
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

[论文笔记] LLaMA3.1与Qwen2与Apple 技术报告中预训练方案对比

心宝的博客

07-30

397

此外，它确保了模型生成的内容与人类价值观一致，使其有帮助、诚实且无害。与依赖大量人类监督的传统方法不同，我们的方法侧重于可扩展的对齐，最小化人类注释的需求（Cao等人，2024）。具体来说，我们研究了获取高质量的演示和偏好数据的方法，用于有监督的微调（Supervised Fine-Tuning, SFT）和从人类反馈中学习的强化学习（Reinforcement Learning from Human Feedback, RLHF），目的是在最大限度地提高数据质量和可靠性的同时，最小化人类标记的需求。

Llama 3.1论文中文对照翻译

博观约取，厚积薄发

08-09

1582

现代人工智能（AI）系统由基础模型驱动。本文介绍了一组新的基础模型，称为 Llama 3。它是一群原生支持多语言、编码、推理和工具使用的语言模型。我们最大的模型是一个密集型 Transformer，具有 405 B 405B 参数和高达 128 K 128K 个令牌的上下文窗口。本文对 Llama 3 进行了广泛的实证评估。我们发现 Llama 3 在众多任务上与 GPT-4 等领先语言模型相比质量相当。我们公开发布了 Llama 3，包括 405B 参数语言模型的预训练和后训练版本以及用于输入和输出安

参与评论您还未登录，请先登录后发表或查看评论

LLAMA 3.1 论文的见解

ms44的专栏

08-18

1928

通过选择标准密集 Transformer 模型架构并进行细微调整，他们最大限度地提高了训练稳定性，优于更复杂的模型，例如混合专家模型。我们开发了高质量的 HTML 解析器，以确保抓取的代码和数学文本的质量。这种一丝不苟的方法有助于保持训练数据的高标准，这对于主要在网络数据上进行训练的模型来说至关重要。然而，Meta 的方法表明，只要有正确的相关性和转换，就可以有效地使用它来预测模型的成功。拒绝抽样涉及过滤掉低质量数据以提高数据集的整体质量，这是预训练和监督微调 (SFT) 期间的关键步骤。

Llama 3.1论文精读：为什么模型参数是4050亿？

07-25

317

Ellamind联合创始人、CEO Jan P. Harries解读了Llama 3.1论文有趣的看点。在此基础上，结合原论文，整理看点如下：1. 模型参数为什么是405B？2. 训练基础设施——H100集群的详细介绍3. 大规模GPU集群训练中断了466次，报销了148台机器4. 预训练数据的调整5.后训练6.数据质量评分7.训练专家生成合成语言数据8.如何提高数学与推理能力？9. 长文本如...

LLMs之Llama 3.1：Llama 3.1的简介、安装和使用方法、案例应用之详细攻略

近期请国内外头部出版社可尽快私信博主！——心比天高，仗剑走天涯，保持热爱，奔赴向梦想！低调，谦虚，自律，反思，成长，还算是比较正能量的博主，公益免费传播……内心特别想在AI界做出一些可以推进历史进程影响力的东西(兴趣使然，有点小情怀，也有点使命感呀)…

07-23

3224

LLMs之Llama 3.1：Llama 3.1的简介、安装和使用方法、案例应用之详细攻略目录相关文章 Llama 3.1的简介 Llama 3.1的安装和使用方法 Llama 3.1的案例应用相关文章 LLMs之LLaMA：LLaMA的简介、安装和使用方法、案例应用之详细攻略 LLMs之LLaMA：LLaMA的简介、安装和使用方法、案例应

Meta发布Llama 3.1模型

2402_84466582的博客

07-24

1644

Meta在Llama 3.1模型的训练和优化过程中采用了先进的算法和技术，确保了模型不仅在规模上有所突破，同时在训练效率和资源消耗上实现了平衡。通过开源模型，Meta致力于降低人工智能技术的准入门槛，使得更多来自不同背景的研究者和开发者能够参与进来，共同推动技术进步，实现人工智能的普惠化。这一特点不仅提升了模型的性能，也为研究者和开发者提供了更多的定制化空间。Llama 3.1在超过15万亿个token的数据上进行训练，这一数据量远超先前的LLaMA模型版本，显示了Meta在数据收集和处理方面的强大能力。

微调LLama 3.1——七月论文审稿GPT第5.5版：拿早期paper-review数据集微调LLama 3.1

结构之法算法之道

08-09

3331

对于llama3，我们之前已经做了针对llama3 早7数据微调后的测评后来，llama3.1出来后，考虑到性能高于llama3，所以项目组同事青睐、文弱上周做了llama3.1通过早7数据微调后的测评随后，青睐、文弱又分别做了最终，早7数据下，超gpt4 超的不容易；但早4数据下，超gpt4 则很轻松..个人心得是，首先，llama3.1确实是比llama3 更强悍，其次，现在微调一下超过GPT4，已经不是啥新闻了，我自己都疲了，🐶..

开源最强大模型Llama3.1发布

2301_82275412的博客

07-25

1069

详细介绍Meta于2024年7月23日正式发布了最新的开源大语言模型Llama 3.1，该系列包括8B、70B和405B三个参数版本。Llama 3.1在性能上取得了显著提升，特别是在推理能力、多语言支持以及上下文长度方面。：Llama 3.1的405B版本在150多个基准测试集中表现优异，甚至超越了现有的SOTA模型GPT-4o和Claude 3.5 Sonnet。：具备强大的常识理解、可引导性、数学推理、工具使用和多语言翻译能力。

Llama 3.1（全92页）技术研究报告

07-24

- **长文本总结**：Llama 3.1能够高效地完成长文本的摘要工作，适用于新闻报道、学术论文等内容的快速摘要。 - **多语言对话代理**：在客户服务、在线教育等领域，Llama 3.1能够作为多语言对话系统，提供高质量的...

Python_Llama中文社区Llama3在线体验和微调模型已开放实时汇总最新Llama3学习资料已将所有代码更新适.zip

05-24

Python_Llama中文社区最近发布了一个重要的更新，名为"Llama3在线体验和微调模型已开放实时汇总最新Llama3学习资料已将所有代码更新适"。这个更新涉及到Python中的一个高级机器学习工具——Llama3，它是一个强大的...

深度解析Meta Llama 3.1-405B AI模型：多项跑分超越GPT-4o，未来前景与挑战并存

m0_57781768的博客

07-25

168

在当前的人工智能（AI）领域，Meta推出的Llama 3.1-405B AI模型无疑引起了广泛的关注。作为一款开源的超大规模语言模型，Llama 3.1-405B不仅在多项评测任务上超越了GPT-4o，还带来了全新的技术视角和挑战。本文将详细解析Llama 3.1-405B的优势和不足，探讨其未来的应用前景与挑战，并结合实际案例和代码示例，深入剖析这款模型的技术细节。

速通LLaMA1：《LLaMA: Open and Efficient Foundation Language Models》全文解读

最新发布

逐梦苍穹的博客

09-15

1252

速通LLaMA1：《LLaMA: Open and Efficient Foundation Language Models》全文解读

本地部署Llama 3.1大模型

崎山小鹿的专栏

09-10

1294

Meta推出的Llama 3.1系列包括80亿、700亿、4050亿参数版本，上下文长度扩展至12.8万tokens，并增加了对八种语言的支持。部署模型需要用到Ollama的一个工具，访问官方网站

小琳AI课堂：LLaMA 3.1 开源大模型的全新里程碑

wx740851326的博客

09-12

625

本期的小琳AI课堂就到这里，希望对大家有所启发和帮助！如果对LLaMA模型还有更多的好奇和问题，欢迎继续提问哦！🌈👋。

大模型教程：使用 Milvus、vLLM 和 Llama 3.1 搭建 RAG 应用

python1234_的博客

09-12

455

Milvus 是一款开源的分布式向量数据库，可用于存储、索引和搜索向量数据，适用于生成式 AI（GenAI）应用。Milvus 支持 hybrid search、元数据过滤、重排（Reranking），能够高效处理万亿规模的向量，助力开发者搭建 AI 和 ML 应用。您可以在本地运行 Milvus standalone 或 cluster 版本，或者使用全托管的 Milvus 服务——Zilliz Cloud。

llama网络结构及源码

靓仔沾点健忘症，写给时间下游的自己

09-12

901

模型初始化、tokenizer、位置编码、mask、模型前向传播，生成下一分词的循环过程

Llama 3.1 大模型指令微调提升中文能力

听雨草堂

09-12

263

Llama 3.1 是一个通用的大型语言模型，尽管它在多种语言上进行了训练，但在某些特定语言（如中文）上的表现可能不如专门针对该语言进行优化的模型。通过指令微调，可以提高模型在处理中文文本时的理解和生成能力。对于某些领域（如医疗、法律、科技等），可能存在大量的中文专业术语和特定表达。通过指令精调，可以让模型更好地理解和生成这些领域的中文内容。通用大模型Llama 3.1 在中文评测数据集C-Eval、CMMLU 上表现不佳，通过精调可以针对特定任务进行优化，提升模型在这些任务上的性能。

Llama3.1部署

08-04

Llama3.1是一个假设性的版本命名，通常Llama可能是某个软件项目、框架或者是特定技术栈的一部分。然而，由于Llama不是一个广泛认可的开源项目或标准术语，我无法提供详细的部署指南。如果你是在询问如何部署某个名为...