用深度学习做命名实体识别(六)-BERT介绍

最新推荐文章于 2024-05-17 16:44:22 发布

程序员一一涤生

最新推荐文章于 2024-05-17 16:44:22 发布

阅读量1.4k

点赞数 1

本文链接：https://blog.csdn.net/anaijiabao/article/details/102849629

版权

BERT是一种基于Transformers的双向编码模型，主要用于文本任务如文本推理、问答、分类、相似度匹配和命名实体识别。通过Masked Language Model (MLM)和Next Sentence Prediction (NSP)策略进行预训练，区别于其他模型如OpenAI GPT和ELMo，BERT能在每一层同时考虑上下文信息。使用BERT可通过feature-based或fine-tuning方法进行应用。

摘要由CSDN通过智能技术生成

什么是BERT？

BERT,全称是Bidirectional Encoder Representations from Transformers。可以理解为一种以Transformers为主要框架的双向编码表征模型。所以要想理解BERT的原理，还需要先理解什么是Transformers。
Transformers简单来说是一个将一组序列转换成另一组序列的黑盒子，这个黑盒子内部由编码器和解码器组成，编码器负责编码输入序列，然后解码器负责将编码器的输出转换为另一组序列。具体可以参考这篇文章《想研究BERT模型？先看看这篇文章吧！》

这里需要注意的是，BERT使用的Transformers中在表示位置信息时，没有使用Positional Encoding，而是使用了Positional Embedding，所以位置信息是训练出来的，并且为了让模型能同时考虑到单词左边和右边的上下文信息，BERT使用了双向Transformers的架构。而由于位置信息是采用的embedding的方式，所以对序列的最大长度就有所限制了,受限于训练时最大序列的长度，这里BERT预训练模型的最大序列长度是512.也就是说如果训练样本超过了长度，就需要采用截断或者其他方式以保证序列的长度在512以内。