
Bert系列
文章平均质量分 72
Bert系列
u013250861
这个作者很懒,什么都没留下…
展开
-
Bert预训练语言模型汇总
同时要注意,BART在进行翻译任务时训练分为两步,首先要对BART的大部分参数进行固定,只训练额外编码器和BART编码器中第一层的部分参数,然后再通过少量的epoch中微调整个模型。其中被掩码连续token的长度k是一个超参数,如果k=1,即只掩码一个token,那么它将和BERT模型相似,如果k=m(m为输入句子的长度),那么该模型Encoders输入全是mask,模型架构与GPT相似,所有作者通过实验,将k从10%到90%(step为10%)各自训练了模型,发现当k=50%时模型效果最好。原创 2025-03-04 14:58:06 · 465 阅读 · 0 评论 -
NLP-预训练模型-202401-NLU:BCE Embedding:为RAG而生【包含EmbeddingModel、RerankerModel】【网易有道】
QAnythinggithub]是网易有道检索增强生成式应用(RAG)开源项目,在有道众多商业产品实践中已积累丰富的经验,比如有道速读和有道翻译。QAnything是一个支持任意格式文件或数据库的本地知识库问答系统,可获得准确、快速、靠谱的问答体验。QAnything支持断网离线使用可私有化。是网易有道研发的两阶段检索算法库,作为QAnything的基石发挥着重要作用。作为RAG技术路线中最为重要和基础的一环,二阶段检索器一般由召回和精排这两个模块组成。原创 2025-01-04 16:45:53 · 993 阅读 · 0 评论 -
NLP-预训练模型-202408-NLU:Conan Embedding【登顶CMTEB】【腾讯】
纯参数化语言模型(LLM)将从大量语料库中获取的世界知识存储在模型的参数中。知识更新滞后:大型语言模型通常基于固定的训练数据集,这意味着它们的知识是截止到某个时间点的。对于需要最新信息的场景,这些模型可能无法提供及时的更新。模型幻觉:大型语言模型有时会生成看似合理但实际上是错误的信息。数据覆盖不全面:尽管训练数据集非常庞大,但仍然可能存在某些领域或主题的数据覆盖不足,导致模型在这些领域的性能不佳。幻觉:模型生成的内容与现实世界事实或用户输入不一致。无法基于意图的文本搜索。原创 2024-12-27 21:09:04 · 1027 阅读 · 0 评论 -
NLP-预训练模型-202308-NLU:GTE(General-purpose Text Embedding Model)【阿里巴巴-通过多阶段对比学习实现通用文本嵌入】【阿里巴巴达摩院】
双编码器架构:GTE模型使用传统的双编码器架构,通过均值池化获取文本表示。多阶段训练:包括无监督预训练和有监督微调两个阶段,利用了大规模的文本对数据。改进的对比学习:提出了一种改进的对比学习目标,扩大了负样本池。大规模数据采样:使用多项式分布进行数据采样,以处理数据不平衡问题。原创 2025-01-03 22:08:35 · 837 阅读 · 0 评论 -
NLP-预训练模型-202302-NLU:BGE (BAAI General Embedding) 【包含Embedder、Reranker】【专注RAG】【隶属FlagEmbedding】【智源】
在训练中为检索任务的查询添加了instruction。对于中文,指令是为这个句子生成表示以用于检索相关文章:. 在评测中,针对段落检索任务的任务需要在查询中添加指令,但不需要为段落文档添加指令。缺乏全面的评测基准,智源团队特意发布了C-MTEB,这是一个全面的中文语义向量评测基准,涵盖了6大类评测任务和31个数据集。智源 发布了其开源的中英文语义向量(embedding)模型BGE,此模型在多个重要指标上均超越了其他同类模型。对比学习是一种训练模型的方法,通过比较正例和反例来学习数据的表示。原创 2025-01-04 17:16:24 · 659 阅读 · 0 评论 -
MTEB指标(Massive Text Embedding Benchmark):一堆衡量文本嵌入模型(Bert模型)的评估指标合集【对应的中文评估指标是 C-MTEB】
最后,向大家推荐一下再C-MTEB是效果拔群的一个开源模型,其名称是BGE(BAAI General Embedding)模型,大家可以再huggingface上下载到,指标如下:BGE模型的指标,来自C-Pack论文大规模语料的预训练通用意图的微调(对比学习的方式)任务特定的微调(使用有标签的数据)BGE模型的训练方法,来自C-Pack论文。原创 2024-12-27 21:04:28 · 1248 阅读 · 0 评论 -
BERT预训练
返回更新后的词元列表 mlm_input_tokens 和记录掩蔽位置及标签的列表 pred_positions_and_labels。好的模型抽取词、句子的特征,不更新预训练好的模型,而是在需要构建新的网络来抓取新任务需要的信息,也就是最后面加上一个MLP做分类;在这个预训练任务中,将随机选择15%的词元作为预测的掩蔽词元,用一个特殊的“”替换输入序列中的词元。2、由于基于微调的NLP模型,也想要一个类似的东西,使预训练的模型抽取了足够多的信息,新任务只需要一个简单的输出层。原创 2024-12-23 21:33:52 · 1124 阅读 · 0 评论 -
小样本学习(Few-Shot Learning)
小样本学习(FSL),也称为低样本学习(LSL),是一种机器学习方法,它会训练包含有限信息的数据集。机器学习应用领域的常见做法是提供可以接收尽可能多数据的模型。这是因为在大多数机器学习应用程序中,提供更多数据使模型能够更好地预测。然而,小样本学习旨在用较少的训练数据构建准确的机器学习模型。由于输入数据的维度是决定资源成本(例如时间成本、计算成本等)的因素,因此人们可以通过使用小样本学习来降低数据分析/机器学习(ML)成本。原创 2023-10-07 23:45:33 · 891 阅读 · 0 评论 -
Bert的位置编码:position_embeddings(绝对位置可学习参数式编码)
position_embeddings(绝对位置可学习参数式编码)原创 2023-08-27 17:09:04 · 6517 阅读 · 0 评论 -
NLP-预训练模型-中文-封神榜系列:燃灯/Randeng-T5-784M(中文版的mT5-large)【处理各种从源文本转换到目标文本类型的任务,例如机器翻译,文本摘要等】
善于处理NLT任务,中文版的mT5-large。原创 2023-07-29 21:00:54 · 693 阅读 · 0 评论 -
NLP-预训练模型-2019:XLM【基于BERT的跨语言模型】【将不同语言放在一起采用新的训练目标进行训练,从而让模型能够掌握更多的跨语言信息】
近一年来,NLP领域发展势头强劲,从ELMO到LSTM再到去年最牛叉的Google Bert,在今年年初,Facebook又推出了XLM模型,在跨语言预训练领域表现抢眼。实验结果显示XLM在XNLI任务上比原来的state-of-the-art直接高了4.9个百分点;在无监督机器翻译WMT’16 German-English中,比原来的state-of-the-art高了9个BLEU;在有监督的机器翻译WMT’16 Romanian-English中,比原来的state-of-the-art高了4个BLEU原创 2021-12-30 23:15:00 · 918 阅读 · 0 评论 -
NLP-预训练模型-2018:Bert字典
参考资料:我的BERT!改改字典,让BERT安全提速不掉分(已开源)原创 2022-02-17 22:24:27 · 475 阅读 · 0 评论 -
NLP-预训练模型-2018-Bert-解析:BertForMaskedLM
import numpy as npimport torchimport torch.nn as nnfrom transformers import BertTokenizer, BertForMaskedLM# Load pre-trained model (weights)with torch.no_grad(): # Load pre-trained model tokenizer (vocabulary) tokenizer = BertTokenizer.from_p原创 2022-02-27 00:50:09 · 2728 阅读 · 0 评论 -
BERT、RoBERTa、DistilBERT、XLNet,我们到底该如何选择?
BERTBERT是一种双向transformer,旨在利用大量未标记文本数据进行预训练,从而学习并掌握某种语言表达形式。更重要的是,这种表达形式还可以针对特定机器学习任务进行进一步调优。虽然BERT在多项任务中都带来了超越以往最强NLP技术的实际表现,但其性能的提升,主要还是归功于双向transformer、掩蔽语言模型与下一结构预测(Next Structure Prediction),外加谷歌本身强大的数据资源与计算能力。最近,NLP业界又出现了多种旨在改进BERT预测指标或计算速度的新方法,但却.原创 2022-02-28 23:15:00 · 2436 阅读 · 0 评论 -
Attention机制:Bahdanau attention、Luong Attention
参考资料:Attention机制(Bahdanau attention & Luong Attention)Bahdanau AttentionBahdanauAttention与LuongAttention注意力机制简介原创 2022-03-04 11:37:16 · 366 阅读 · 0 评论 -
NLP-预训练模型-2019-NLU+NLG:UniLM(自然语言理解与生成的统一预训练语言模型)
UniLM论文全名为Unified Language Model Pre-training for Natural Language Understanding and Generation,译为自然语言理解与生成的统一预训练语言模型。本文提出了采用BERT的模型,使用三种特殊的Mask的预训练目标,从而使得模型可以用于NLG,同时在NLU任务获得和BERT一样的效果。 模型使用了三种语言模型的任务:unidirectional predictionbidirectional prediction原创 2022-03-21 23:03:20 · 1463 阅读 · 0 评论 -
SimBERT(基于UniLM思想、融检索与生成于一体的BERT模型)【主要应用场景:相似文本生成、相似文本检索】
SimBERT是追一科技开源的一款基于BERT根据文本语义相似度进行召回的项目。https://github.com/ZhuiyiTechnology/simbert。一、SimBERT作用SimBERT主要的应用场景分成相似文本生成、相似文本检索。1、相似文本生成相似文本生成任务其实就是用户输入一段文本,SimBERT会生成相似的文本。下面是生成任务效果展示图:图1 生成任务效果展示图:这个任务其实和我们的文案生成模型非常相似,广告主输入一些生成条件,比如“捕鱼游戏,好玩,金币”,模型就会生原创 2022-03-21 23:41:17 · 10014 阅读 · 2 评论 -
BERT可视化工具bertviz
BertViz 是一种交互式工具,用于在Transformer语言模型(如 BERT、GPT2 或 T5)中可视化注意力网络。它可以通过支持大多数Huggingface 模型,可以简单地通过 Python API 在 Jupyter 或 Colab 笔记本中运行。BertViz 扩展了 Llion Jones的Tensor2Tensor 可视化工具,添加了多个视图,每个视图都为注意力机制提供了独特的视角。具体计算原理:https://towardsdatascience.com/deconstructing原创 2022-06-14 22:44:47 · 674 阅读 · 0 评论 -
哈工大:Chinese-BERT-wwm
在自然语言处理领域中,预训练语言模型(Pre-trained Language Models)已成为非常重要的基础技术。为了进一步促进中文信息处理的研究发展,我们发布了基于全词掩码(Whole Word Masking)技术的中文预训练模型BERT-wwm,以及与此技术密切相关的模型:BERT-wwm-ext,RoBERTa-wwm-ext,RoBERTa-wwm-ext-large, RBT3, RBTL3等。原创 2022-09-26 19:52:04 · 2714 阅读 · 0 评论 -
Bert在fine-tune训练时的技巧:①冻结部分层参数、②weight-decay (L2正则化)、③warmup_proportion、④
冻结参数经常在一些大模型的训练中使用,主要是对于一些参数较多的模型,冻结部分参数在不太影响结果精度的情况下,可以减少参数的迭代计算,加快训练速度。但bert可调参数很多,一些技巧也很多,比如加上weight-decay, layer初始化、冻结参数、只优化部分层参数等等,方法太多了,每次都会纠结该怎么样去finetune,才能让bert训练的又快又好呢,有没有可能形成一个又快又好又准的大体方向的准则呢。不同的策略下,收敛速度还是有相差比较大的,其中有进行一些frozen参数的,迭代计算确实速度快了许多。原创 2022-10-02 21:53:33 · 6783 阅读 · 0 评论 -
预训练模型:DeBERTa
从19年Roberta开源以来,Roberta应该算是使用者最多的Encoder结构模型,简单、效果好,使用起来十分方便,在过去的两年内,基于Roberta(Bert)结构上的改进也层出不穷,也不乏效果还不错的,Deberta就是其中之一。Deberta是微软在2021年开源的模型,在论文中中,微软提出了基于注意力解耦机制的解码增强型BERT,在SuperGlue中成功登顶并且超越人类水平。短短一年,Deberta已经迭代了三个版本,但是在中文领域上的相关工作还比较少,原创 2023-06-10 11:21:33 · 1825 阅读 · 0 评论 -
NLP-预训练模型-2020:Electra【预训练任务RTD(ReplacedTokenDetection)替代MLM;借鉴GAN;生成器+判别器;判别器用于下游;比RoBert预训练速度大幅提升】
自然语言处理(NLP)-预训练模型:Electra【Pre-training Text Encoders as Discriminators Rather Than Generators】2020原创 2021-08-03 22:51:38 · 4449 阅读 · 2 评论 -
NLP-预训练模型-2020:BigBird【使用了稀疏注意力机制(随机、滑动窗口、全局),将复杂度从O(n^2·d)降到线性O(n)】【能够处理序列的长度比BERT多8倍;512-->4096】
一、前言Transformer 是目前 NLP 研究领域中特别重要的模型,也衍生出了很多基于 Transformer 的方法,例如 BERT、GPT,在很多 NLP 任务中有很好的效果。但是这些模型也存在一些局限,其中包括 Self-Attention 的复杂度问题 (其复杂度是输入序列长度的平方)。Google 的研究人员提出了 Big Bird 模型,使用了稀疏注意力机制,将复杂度降到线性。Transformer 模型克服了 RNN 的限制,采用全局的 Attention,可以捕获序列所有 toke原创 2022-03-05 03:03:40 · 2392 阅读 · 1 评论 -
NLP-预训练模型-2020-NLU+NLG:mT5【多国语言版T5】
最近的“文本到文本的迁移transformer”(T5)利用统一的文本到文本的格式和大规模,在各种英语NLP任务上获得最新的结果。 在本文中,我们介绍了mT5,它是T5的多语言变体,已在包含101种语言的新的基于Common Crawl的数据集中进行了预训练。 我们描述了mT5的设计和改进的训练,并在许多多语言基准上展示了其最新的性能。 这项工作中使用的所有代码和模型checkpoint都是公开可用的。参考资料:mT5: 多国语言版T5(中文T5)(2020年10月论文)用mT5模型微调中文分类原创 2022-02-17 22:45:00 · 1437 阅读 · 0 评论 -
NLP-预训练模型-2019-NLU+NLG:BART【Bert+GPT的泛化Seq2Seq模型】【噪声破坏后的原文本喂给编码器,解码器输出原文本】【噪音方案:文本填充(文本片段用单个掩码替换)】
《原始论文:BART: Denoising Sequence-to-Sequence Pre-training for Natural Language Generation, Translation, and Comprehension》一、摘要BART是 Bidirectional and Auto-Regressive Transformers的简写。BART的训练主要由2个步骤组成:(1)使用任意噪声函数破坏文本;(2)模型学习重建原始文本。BART 使用基于 Transformer原创 2021-09-17 21:58:33 · 12918 阅读 · 1 评论 -
NLP-预训练模型-2019-NLU+NLG:T5【Transfer Text-to-Text Transformer】【将所有NLP任务都转化成Text-to-Text任务】【 翻译、文本摘要..】
《原始论文:Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer》2019年10月,Google 在《Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer》这篇论文中提出了一个最新的预训练模型 T5(Text-To-Text Transfer Transformer),其参数量达到了 11原创 2021-12-30 22:45:00 · 18599 阅读 · 1 评论 -
NLP-预训练模型-2019-NLG:MASS【Bert+GPT的泛化Seq2Seq模型】【文本片段中被掩码的部分替换为相同数量的[MASK]】
预训练模型(Pretrained model):一般情况下预训练模型都是大型模型,具备复杂的网络结构,众多的参数量,以及在足够大的数据集下进行训练而产生的模型.在NLP领域,预训练模型往往是语言模型,因为语言模型的训练是无监督的,可以获得大规模语料,同时语言模型又是许多典型NLP任务的基础,如机器翻译,文本生成,阅读理解等,常见的预训练模型有BERT, GPT, roBERTa, transformer-XL等.2018年开始,预训练(pre-train) 毫无疑问成为NLP领域最热的研究方向。借助于原创 2021-08-03 22:48:09 · 1090 阅读 · 1 评论 -
NLP-预训练模型-2019:XLM-Roberta【一种多语言预训练模型】
《原始论文:Unsupervised Cross-lingual Representation Learning at Scale》Facebook AI团队于2019年11月发布了XLM-RoBERTa,作为其原始XLM-100模型的更新。它们都是基于Transformer的语言模型,都依赖于掩码语言模型目标,并且都能够处理100种不同语言的文本。相较于原始版本,XLM-Roberta的最大更新是训练数据量的显著增加。经过清洗训练过的常用爬虫数据集占用高达2.5tb的存储空间!它比用来训练其前身的Wi原创 2021-12-30 22:45:00 · 1915 阅读 · 0 评论 -
NLP-预训练模型-2019-NLU:XLNet【 在Transformer-XL的基础上:①“排列组合LM”取代Bert中的“掩码LM”解决其弊端;②使用“双流注意力机制”解决位置信息】
深度学习-自然语言处理(NLP)-预训练模型:XLNet原创 2021-02-27 22:12:51 · 1559 阅读 · 0 评论 -
NLP-预训练模型-2019-NLU:TinyBert【 轻量级Bert】【采用知识蒸馏的方法来压缩Bert模型】
《原始论文:TinyBERT: Distilling BERT for Natural Language Understanding》GitHub:https://github.com/brightmart/albert_zh参考资料:华为刘群团队构造两阶段知识蒸馏模型TinyBERT,模型压缩7.5倍,推理时间快9.4倍加速 BERT 模型有多少种方法?从架构优化、模型压缩到模型蒸馏最新进展详解!NLP中的预训练语言模型(四)—— 小型化bert(DistillBert, ALBERT, TIN原创 2021-02-06 23:53:34 · 735 阅读 · 0 评论 -
NLP-预训练模型-2019-NLU:DistilBERT【 BERT模型压缩】【模型大小减小了40%(66M),推断速度提升了60%,但性能只降低了约3%】
《原始论文:DistilBERT, a distilled version of BERT: smaller, faster, cheaper and lighter》NLP预训练模型随着近几年的发展,参数量越来越大,受限于算力,在实际落地上线带来了困难,针对最近最为流行的BERT预训练模型,提出了DistilBert,在保留97%的性能的前提下,模型大小下降40%,inference运算速度快了60%。一、模型蒸馏Distill的意思是蒸馏,我们可以从字面上猜测,我们要从一个很大的模型,蒸馏成比较原创 2021-12-30 23:30:00 · 2233 阅读 · 0 评论 -
NLP-预训练模型-2019:SpanBERT
SpanBERT对Bert的改进主要体现在对mask方式的改进,丢弃NSP任务和增加SBO(Span Boundary Objective)任务。其改进点如下:(1)Span mask方案Bert是随机mask输入序列中的字,这样能很简单地推测出字之间的搭配,这样会让本来应该有强相关的一些连在一起的字词,在训练时是割裂开来的。难以建立词中各个字之间的关联信息。针对这一短板Bert-wwm与ERNIE分别对更改了mask策略,Bert-wwm是mask所有能够连续组成词的字,ERNIE是mask所有能够.原创 2021-12-29 20:39:42 · 581 阅读 · 0 评论 -
NLP-预训练模型-2019:ALBert【 轻Bert;使用 “输入层向量矩阵分解”、“跨层参数共享” 减少参数量;使用SOP代替NSP】【较Bert而言缩短训练及推理时间】
预训练模型(Pretrained model):一般情况下预训练模型都是大型模型,具备复杂的网络结构,众多的参数量,以及在足够大的数据集下进行训练而产生的模型.在NLP领域,预训练模型往往是语言模型,因为语言模型的训练是无监督的,可以获得大规模语料,同时语言模型又是许多典型NLP任务的基础,如机器翻译,文本生成,阅读理解等,常见的预训练模型有BERT, GPT, roBERTa, transformer-XL等.ALBERT通过因式分解和参数共享的方式削减了嵌入层的参数矩阵,后续为找补回损失的精度使用原创 2021-08-03 22:47:08 · 3508 阅读 · 0 评论 -
NLP-预训练模型-2019-NLU:RoBERTa【 优化版Bert】【丢掉NSP任务;Mask改为动态;放大数据集】
自然语言处理(NLP)原创 2021-02-23 21:56:01 · 892 阅读 · 0 评论