终于,BERT大模型来了!

在这里插入图片描述

最近Answer.AI等机构发布了一个新的BERT模型:ModernBERTModernBERT 是一系列最先进的encoder-only模型,全面超越了旧一代BERT模型,在各个方面都有所改进,支持8192的token长度,下游性能更好,处理速度也更快。 ModernBERT有两个模型尺寸:139M的Base模型和395M的Large模型,可以作为任何类似BERT模型的即插即用替代品。

论文地址:https://arxiv.org/abs/2412.13663

BERT于2018年发布(在人工智能领域相当于千年前!),至今仍然被广泛使用:实际上,它目前是HuggingFace 上下载量第二大的模型,每月下载量超过6800万次,仅次于另一个为检索任务微调的encoder-only模型(all-MiniLM-L6-v2)。这是因为其encoder-only架构使其非常适合日常出现的各类实际问题,如检索(例如用于RAG)、分类(例如内容审核)和实体提取(例如用于隐私和法规合规)。

终于,在6年后的今天,我们有了替代品!ModernBERT这个模型吸收了近年来LLMs上工作的创新,并将其应用于BERT风格的模型,包括架构和训练过程的更新。ModernBERT在速度和准确性上都比BERT更好。 除了速度更快、准确性更高之外,ModernBERT还将上下文长度增加到了8k个token(相比之下,大多数encoder-only模型仅有512个token),并且是第一个在其训练数据中包含大量代码的encoder-only模型。 这些特性开辟了一些的新应用领域,例如大规模代码搜索、新的IDE特性,以及基于全文检索而非小块数据的新检索流程。

一、Decoder-only模型

最近在大型语言模型(LLM)方面已经取得了很大的进展,比如GPT、Llama和Claude这样的模型上。这些是decoder-only模型,或者说是生成模型。LLM的进步促进了生成式AI的广泛应用。但这并不代表encoder-only的BERT模型完全没有价值。

为什么呢?因为许多实际应用需要一个精简而高效的模型!而且它不需要是一个生成模型。

更直白地说,decoder-only模型对于许多工作来说太大了、太慢了、太私密了,也太贵了。最初的GPT-1是一个1.117M的模型。相比之下,最大Llama 3.1模型有405B参数,对于大多数公司来说无法训练也无法直接部署使用。要使用这样的模型往往要买商业公司的API,比如ChatGPT。

当然,这些巨型生成模型的开放式能力意味着你可以在紧急情况下,将它们用于非生成性或判别式任务,比如分类。这是因为你可以用简单的英语描述一个分类任务,然后只是让模型去分类。但是,用LLM这样的大模型做这件事会很昂贵。

生成式AI的流行热潮掩盖了encoder-only模型的作用。这些是实际中自然语言处理的主力军,是许多科学和商业应用中目前正在使用的实际模型。

二、Encoder-only模型

encoder-only模型的输出是一个embedding向量。你可以说,与用文本回答不同,encoder-only模型将其“答案”编码成这种压缩的数值形式。这个向量是模型输入的压缩表示,这就是为什么encoder-only模型有时被称为表征模型(representational models

虽然模型decoder-only(如GPT)可以完成encoder-only模型(如BERT)的工作,但它们受到一个关键限制的:由于它们是生成模型,从数学上讲“不允许”它们“偷看”后面的token。它们只能向后看。这与encoder-only模型形成对比,后者被训练成每个token可以向前和向后看(双向attention),这使它们在执行任务时非常高效。

基本上,像OpenAI的o1这样的前沿模型就像法拉利SF-23,它是工程学上的一个明显胜利,旨在赢得比赛。相比之下,BERT模型就像本田思域。它也是一个工程学上的胜利,但更微妙,因为它被设计成经济实惠、节油、可靠且极其实用。这就是为什么它们无处不在,下面列出了一些encoder-only模型的实际应用场景。

  • 支持生成式模型

    encoder-only模型可以和生成式模型协同工作,以构建更高效的AI。一个明显的例子是RAG,可以使用encoder-only模型来快速地检索文档信息来喂给LLM。另一个例子是用于监督,其中可能使用一个便宜的分类器来确保生成的文本不违反内容安全要求。

  • 基于encoder-only模型的系统

    比如社交媒体和像Netflix这样的平台上的内容推荐系统,以及垃圾邮件检测系统等等。

三、ModernBERT模型

ModernBERT和BERT一样是一种双向attention的encoder-only模型,但是借鉴LLM做了一些架构上的升级。

首先,ModernBERT在模型架构上借鉴了Llama2的设计(源自Mamba),主要包括:

  • 位置编码采用RoPE,这使得模型能够更好地理解单词之间的关系,并可以扩展到更长的序列长度。

  • 将旧的 MLP 层替换为 GeGLU 层(原始 BERT 采用GeLU 激活)。

  • 删除不必要的bias参数来简化架构。

  • 在embedding之后添加额外的LayerNorm层,有助于稳定训练。

然后,采用局部-全局交替注意力机制来提升长文本的计算效率:ModernBERT 每 3 层才进行一次全局注意力计算,其他层使用滑动窗口,每个 token 只关注与其最近的 128 个 token(局部注意力),显著提高了处理长输入序列的速度。

其次是使用 Unpadding 和 Sequence Packing并结合Flash Attention来提升计算效率。为了能够处理同一batch中的多个序列,encoder-only模型要求它们具有相同的序列长度,以便它们可以执行并行计算。传统上,这里依靠padding来实现这一点:找出哪个句子最长,并给其它句子后面添加无意义的token(padding token)来pandding。虽然padding解决了这个问题,但它并不是很优雅:大量的计算最终被花费并浪费在padding token上,而这些token并没有提供任何语义信息。

现在的做法是通过Unpadding 和 Sequence Packing来将不同长度的序列连接成一个batch,通过attention mask来保证不同序列的tokens互相不干扰,目前Flash Attention是支持这个的。

此外,ModernBERT模型设计还考虑了硬件效率,最终的两个模型的参数是:

  • ModernBERT-base:22层, 149M参数
  • ModernBERT-large:28层, 395M参数。

最后,ModernBERT的训练预料也和LLM一样扩大了数据规模,在2T tokens上训练, 训练数据来自各种英语来源,包括网络文档、代码和科学文章。预训练先采用1024 token,然后扩展到8192。

四、ModernBERT性能

这里对ModernBERT进行了一系列的任务评估,包括自然语言理解(GLUE)、通用检索(BEIR)、长上下文检索(MLDR)以及代码检索(CodeSearchNet和StackQA)。ModernBERT主要亮点总结如下:

  • 在GLUE上,ModernBERT-base超越了其他同样大小的encoder-only模型,而ModernBERT-large仅次于Deberta-v3-large。

  • 对于通用检索任务,ModernBERT在BEIR上表现良好,无论是单向量(DPR风格)还是多向量(ColBERT风格)设置。

  • 得益于其训练混合中包含的代码数据,ModernBERT作为主干网络也在CodeSearchNet和StackQA上取得了新的代码检索最佳结果。

此外,ModernBERT的推理效率也更高效。以下是 在NVIDIA RTX 4090 上 ModernBERT 和其他模型的对比,可以看到,对于可变长度的输入,ModernBERT 比所有其他模型都快得多。

我觉得ModernBERT还是一个蛮有实用价值的工作,在大家都涌向LLM的今天,难得还有人去关注一些更实用性的传统模型。

五、如何系统学习掌握AI大模型?

AI大模型作为人工智能领域的重要技术突破,正成为推动各行各业创新和转型的关键力量。抓住AI大模型的风口,掌握AI大模型的知识和技能将变得越来越重要。

学习AI大模型是一个系统的过程,需要从基础开始,逐步深入到更高级的技术。

这里给大家精心整理了一份全面的AI大模型学习资源,包括:AI大模型全套学习路线图(从入门到实战)、精品AI大模型学习书籍手册、视频教程、实战学习、面试题等,资料免费分享

1. 成长路线图&学习规划

要学习一门新的技术,作为新手一定要先学习成长路线图方向不对,努力白费

这里,我们为新手和想要进一步提升的专业人士准备了一份详细的学习成长路线图和规划。可以说是最科学最系统的学习成长路线。
在这里插入图片描述

2. 大模型经典PDF书籍

书籍和学习文档资料是学习大模型过程中必不可少的,我们精选了一系列深入探讨大模型技术的书籍和学习文档,它们由领域内的顶尖专家撰写,内容全面、深入、详尽,为你学习大模型提供坚实的理论基础(书籍含电子版PDF)

在这里插入图片描述

3. 大模型视频教程

对于很多自学或者没有基础的同学来说,书籍这些纯文字类的学习教材会觉得比较晦涩难以理解,因此,我们提供了丰富的大模型视频教程,以动态、形象的方式展示技术概念,帮助你更快、更轻松地掌握核心知识

在这里插入图片描述

4. 2024行业报告

行业分析主要包括对不同行业的现状、趋势、问题、机会等进行系统地调研和评估,以了解哪些行业更适合引入大模型的技术和应用,以及在哪些方面可以发挥大模型的优势。

在这里插入图片描述

5. 大模型项目实战

学以致用 ,当你的理论知识积累到一定程度,就需要通过项目实战,在实际操作中检验和巩固你所学到的知识,同时为你找工作和职业发展打下坚实的基础。

在这里插入图片描述

6. 大模型面试题

面试不仅是技术的较量,更需要充分的准备。

在你已经掌握了大模型技术之后,就需要开始准备面试,我们将提供精心整理的大模型面试题库,涵盖当前面试中可能遇到的各种技术问题,让你在面试中游刃有余。

在这里插入图片描述

全套的AI大模型学习资源已经整理打包,有需要的小伙伴可以微信扫描下方CSDN官方认证二维码,免费领取【保证100%免费

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值