姆爷-CSDN博客

原创万字长文带你纵览 BERT 家族

目录1.BERT1.1概述1.2模型解读1.3BERT的特点1.4用法2.BERT的后代2.1XL-Net2.2RoBERTa2.3ALBERT2.4ELECTRA2.5ERNIE2.6BERT-WWM2.7SpanBERT2.8 TinyBERT2.9DistillBERT2.10sentence-BERT2.11K-BERT2.12SemBert2.13StructBERT自18年底谷...

2020-05-26 10:51:02 1776

项目里是要求提交申请，然后Facebook官方发送模型下载链接，通过链接下载完整模型文件，才能运行项目，实测在huggingface上去下载拆分后的模型是不能运行的项目的。明显发现，llama中文交互效果较差，并且在英文生成回复上也没有chatgpt流畅圆滑，可能是由于Facebook为了抢风头，在数据质量和数据范围方面没有做太多工作，或者是因为这只是llama的demo版本，Facebook正在憋大招吧。，单卡3090可部署。（2）在生成效果上，额...，还行吧。经过测试，（1）在算力要求上，

2023-03-28 20:53:06 3086

原创 Prompt Learning（2）——文本情感分析实战

（4）答案标签映射：计算每个prompt模板中标签答案的得分，将每个标签中答案最高得分作为该标签的得分，标签中得分最高的即为该prompt下这条文本的标签预测结果，最后集成所有prompt结果得最终标签。（1）prompt模板构造：构造prompt模板，将输入文本转为MLM完形填空任务的输入；（3）答案预测：使用MLM预测[MASK]位置处各tokens的概率；（2）标签答案构建：构建pos标签和neg标签对应的答案字典；Prompt Learning（2）——文本情感分析实战。

2023-03-25 01:02:39 720

原创 ChatGPT开源平替（1）——ChatGLM

在我笔记本单卡2060（6G）上可以加载模型，但推理时候会报cuda错误，可能是笔记本上显卡功率跟不上，性能发挥不出最佳状态。没有GPU的情况下也可以使用CPU，但推理非常慢，本人使用自己笔记本电脑CPU进行加载，推理过了十几分钟还没有得到回复，不过能在消费级显卡上运行起来已经为大模型部署降低了很大的门槛了。经过约 1T 标识符的中英双语训练，辅以监督微调、反馈自助、人类反馈强化学习等技术的加持，62 亿参数的 ChatGLM-6B 已经能生成相当符合人类偏好的回答。架构，具有 62 亿参数。

2023-03-23 08:43:34 8993

原创 NLP第四范式——Prompt Learning（1）简介

Prompt learning则不然，它依赖于预训练语言模型P(x)，通过引入合适的模版template将输入x调整为完形填空格式的x’，调整后的输入x’里含有某些空槽，利用语言模型P将空槽填充后就可以推断出对应的y。第三范式指的是先在大的无监督数据集上进行预训练，学习到一些通用的语法和语义特征，然后利用预训练好的模型在下游任务的特定数据集上进行fine-tuning，使模型更适应下游任务。选择合适的模版，定义函数fprompt(x)，可以将原始的输入x转化为x‘，即fprompt(x)=x’。

2023-03-22 13:50:49 639

原创强化学习笔记——（1）强化学习简介

on-policy采用的是当前策略搜集的数据训练模型，每条数据仅使用一次。强化学习是机器学习学习方式的一种，是让计算机实现从一开始完全随机的进行操作，通过不断试错的方式去总结出每一步的最佳行为决策，基于环境给予的反馈，去调整自己的行为决策。学习过程中，不与真实环境进行交互，只从过往经验（dataset）中直接学习，而dataset是采用别的策略收集的数据，并且采集数据的策略并不是近似最优策略。（2）无监督学习：训练数据无标签，通过算法建模，学习总结出数据中的共性模式，从而对未来的数据进行编码、聚类等。

2023-03-12 22:55:39 729

原创传统匹配模型详解（附代码）

文本匹配是NLU中的一个核心问题，虽然基于深度学习的文本匹配算法大行其道，但传统的文本匹配算法在项目中也是必要的。本文详解了传统的文本匹配算法Jaccard、Levenshtein、Simhash、Bm25、VSM的原理及其代码分享给大家，若有不足之处，请大家指出。1.概述在实际工程项目，不论是基于交互的还是基于表示的文本匹配，往往都会结合传统的字面匹配算法来综合评估两段文本的匹配程度。至此，“文本匹配”系列文章更新完结，后期会针对性解读某种文本匹配算法及其实操，敬请期待。2. 算法解读...

2020-05-27 16:34:39 1595

原创 BERT面试8问8答

近期对BERT系列综述了一番，但记得以前刚接触BERT的时候有很多疑问，之后通过看博客、论文陆续弄明白了。这次就以QA的形式将关于BERT的疑问及其相应解答分享给大家，不足之处，望请指出。关注【NLP有品】后期会不定期分享各个版本bert的详细解读以及实战代码，敬请期待。（1）BERT的MASK方式的优缺点？答：BERT的mask方式：在选择mask的15%的词当中，80%情况下使用mask掉这个词，10%情况下采用一个任意词替换，剩余10%情况下保持原词汇不变。优点：1）被随机选择15%的词.

2020-05-27 13:34:24 958

原创 BERT家族：StructBERT

StructBERT论文：《STRUCTBERT: INCORPORATING LANGUAGE STRUCTURES INTO PRE-TRAINING FOR DEEP LANGUAGE UNDERSTANDING》论文地址：https://arxiv.org/pdf/1908.04577作者/机构：阿里巴巴年份：2019.9StructBERT 是将语言结构信息融入进Bert,来提高其性能,其主要是增加了两个基于语言结构的训练目标：词序(word-level ordering)重构

2020-05-27 10:27:35 543

原创 BERT家族：SemBert

SemBert论文：《Semantics-aware BERT for Language Understanding》论文地址：https://arxiv.org/pdf/1909.02209作者/机构：上海交通大学+云从科技年份：2019.9SemBERT是将语义角色标注（SRL，Semantic Role Labeling）信息结合进去，来提高BERT的性能。K-BERT对BERT的预训练过程做了如下步骤的改进：（1）获取SRL标注使用目前最优的语义角色标注器deep-s

2020-05-26 11:26:22 695

原创 BERT家族：K-BERT

K-BERT论文：《K-BERT: Enabling Language Representation with Knowledge Graph》论文地址：https://arxiv.org/pdf/1909.07606v1作者/机构：北京大学+腾讯年份：2019.9K-BERT主要是为了提升BERT在知识驱动任务上微调性能，由于通用语料训练的BERT模型在知识驱动型的任务上较大的领域差异，微调效果欠佳。K-BERT通过将知识图谱的三元组信息引入到BERT的预训练中，使能够模型习得特殊

2020-05-26 11:24:57 1109

原创 BERT家族：sentence-BERT

sentence-BERT论文：《Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks》论文地址：https://arxiv.org/pdf/1908.10084作者/机构：达姆施塔特工业大学年份：2019.8Sentence-BERT主要是解决Bert语义相似度检索的巨大时间开销和其句子表征不适用于非监督任务如聚类，句子相似度计算等而提出的。Sentence-BERT使用鉴孪生网络结构，获取句子对的向量表示，然

2020-05-26 11:21:00 2774

原创 BERT家族：DistillBERT

DistillBERT论文：《DistilBERT, a distilled version of BERT: smaller,faster, cheaper and lighter》论文地址：https://arxiv.org/pdf/1910.01108作者/机构：Hugging face年份：2019.10DistillBert是在Bert的基础上用知识蒸馏技术训练出来的小型化bert，通过teacher model的soft target作为total loss的一部分，以诱导s

2020-05-26 11:19:27 1459

原创 BERT家族：TinyBERT

TinyBERT论文：《TINYBERT:DISTILLINGBERTFORNATURALLAN-GUAGEUNDERSTANDING》论文地址：https://arxiv.org/pdf/1909.10351作者/机构：华科+华为诺亚方舟实验室年份：2019.9TinyBert通过对Bert 编码器中的Transformer进行压缩，使用两段式学习框架在精度允许范围内节约了计算资源和推理速度。其改进点如下：（1）Transformer蒸馏法为了在加快推理速度和降低模型大小的

2020-05-26 11:18:04 742

原创 BERT家族：spanBERT

SpanBERT论文：《SpanBERT: Improving Pre-training by Representing and Predicting Spans》论文地址：https://arxiv.org/pdf/1907.10529作者/机构：华盛顿大学+普林斯顿大学年份：2019.8SpanBERT对Bert的改进主要体现在对mask方式的改进，丢弃NSP任务和增加SBO（Span Boundary Objective）任务。其改进点如下：（1）Span mask方案

2020-05-26 11:15:32 1969

原创 BERT家族：BERT-WWM

BERT-WWM论文：《Pre-Training with WholeWord Masking for Chinese BERT》论文地址：https://arxiv.org/pdf/1906.08101作者/机构：讯飞+哈工大年份：2019.7BERT-WWM对Bert的改进主要体现在mask的方式上，使用全词mask。其改进点如下：与百度ERNIE相比，BERT-WWM不仅仅是连续mask实体词和短语，而是连续mask所有能组成中文词语的字。具体做法是，针对中文，如果一个完整的词

2020-05-26 11:07:11 3870

原创 BERT家族：ERNIE

ERNIE论文：《ERNIE: Enhanced Representation from kNowledge IntEgration》论文地址：https://arxiv.org/pdf/1904.09223v1作者/机构：百度年份：2019.3ERNIE对Bert的改进主要体现在mask的方式上，将中文单字的mask改为连续的实体词和短语mask，事Bert能够学习到真实世界的语义知识信息，以此来提高Bert的性能。另外，之后清华也出了一个版本的ERNIE，它将知识图谱融入到语

2020-05-26 11:03:04 321

原创 BERT家族：ELECTRA

ELECTRA论文：《Efficiently Learning an Encoder that Classifies Token Replacements Accurately》论文地址：https://openreview.net/attachment?id=r1xMH1BtvB&name=original_pdf作者/机构：斯坦福+google年份：2019.11ELECTRA对Bert的改进最主要的体现在是提出了新的预训练任务和框架，把生成式的Masked language

2020-05-26 10:59:31 348

原创 BERT家族：ALBERT

ALBERT论文：《ALBERT: A Lite BERT For Self-Supervised Learning Of Language Representations》论文地址：https://arxiv.org/pdf/1909.11942作者/机构：google年份：2019.9采用了全新的参数共享机制，反观其他升级版BERT模型，基本都是添加了更多的预训练任务，增大数据量等轻微的改动。这次ALBERT的改进，不仅提升了模型的整体效果再一次拿下来各项榜单的榜首，而且参数量相比B

2020-05-25 22:01:44 398

原创 BERT家族：RoBERTa

RoBERTa论文：《RoBERTa：A Robustly Optimized BERT Pretraining Approach》作者/机构：Facebook + 华盛顿大学论文地址：https://arxiv.org/pdf/1907.11692年份：2019.7RoBERTa在训练方法上对Bert进行改进，主要体现在改变mask的方式、丢弃NSP任务、训练超参数优化和使用更大规模的训练数据四个方面。其改进点如下：（1）静态Mask变动态MaskBert在整个预训练过程，选择

2020-05-25 22:00:09 904

原创 BERT家族：XL-NET

XL-Net论文：《XLNet: Generalized Autoregressive Pretraining for Language Understanding》论文地址：https://arxiv.org/pdf/1906.08237v1作者/机构：CMU+google年份：2019.6XL-NET主要是通过改变MLM了训练的方式,来提高Bert的性能，提出了自回归（AR，autoregressive）语言模型训练方法，另外还针对长文本任务将transformer替换为tran

2020-05-25 21:58:58 330

原创 BERT家族：族长BERT

自18年底谷歌BERT问世以后，NLP便逐渐步入bert时代，bert家族儿孙满堂，如RoBERTa、ALBert、ERNIE等等，这些bert们正在给并持续给nlp领域输入无限生机，让人工智能皇冠上的明珠更加光彩夺目，在其光芒的照耀下，人类的人工智能之路必定越来越清晰、明朗。通过阅读大量博客资料，知乎专栏和论文，文本以通俗易懂而不失专业的方式总结了Bert以及其13个衍生版本，分享给大家，不足之处，望请指出。后期会不定期分享各个版本bert的详细解读以及实战代码，敬请期待。1.BERT论文：.

2020-05-25 16:32:32 437

qq_32223859的博客