NLP - 基于 BERT 的中文命名实体识别(NER)

序列标注任务是中文自然语言处理(NLP)领域在句子层面中的主要任务,在给定的文本序列上预测序列中需要作出标注的标签。常见的子任务有命名实体识别(NER)、Chunk 提取以及词性标注(POS)等。

BERT 模型刷新了自然语言处理的 11 项记录,成为 NLP 行业的新标杆。既然 Google 开源这么好的模型架构和预训练的中文模型,那我们就使用它构建一个序列标注模型。

PS: 最近我开源了一个极简文本分类和序列标注框架 Kashgari,今天的教程将使用这个框架构建模型。如果想了解文本分类,可以看下面的文章。

搭建环境和数据准备

准备工作,先准备 python 环境,下载 BERT 语言模型。

虚拟环境中安装所有需要的依赖

1
2
pip install "kashgari>=1.1,<2.0"
pip install "tensorflow>=1.14,<2.0"

读取数据

1
2
3
4
5
6
7
8
9
10
11
12
from kashgari.corpus import ChineseDailyNerCorpus

train_x, train_y = ChineseDailyNerCorpus.load_data('train')
valid_x, valid_y = ChineseDailyNerCorpus.load_data('validate')
test_x, test_y  = ChineseDailyNerCorpus.load_data('test')

print(f"train data count: {len(train_x)}")
print(f"validate data count: {len(valid_x)}")
print(f"test data count: {len(test_x)}")
train data count: 20864
validate data count: 2318
test data count: 4636

创建 BERT embedding

1
2
3
4
5
6
import kashgari
from kashgari.embeddings import BERTEmbedding

bert_embed = BERTEmbedding('<PRE_TRAINED_BERT_MODEL_FOLDER>',
                           task=kashgari.LABELING,
                           sequence_length=100)

创建模型并训练

1
2
3
4
5
6
7
8
9
10
11
from kashgari.tasks.labeling import BiLSTM_CRF_Model

# 还可以选择 `CNN_LSTM_Model`, `BiLSTM_Model`, `BiGRU_Model` 或 `BiGRU_CRF_Model`

model = BiLSTM_CRF_Model(bert_embed)
model.fit(train_x,
          train_y,
          x_validate=valid_x,
          y_validate=valid_y,
          epochs=20,
          batch_size=512)

模型评估结果

模型训练

测试环境: V100, 2CPU 40G 感谢 OpenBayes BayesGear 算力容器 提供算力支持。
基础参数:

  • batch_size: 2317
  • sequence_length: 100
  • epochs: 200

F1 score

CNN-LSTMB-LSTMB-LSTM-CRF
bare embedding0.52750.65690.6805
Word2vec0.50420.66860.7341
BERT0.82120.90430.9220

每 epoch 耗时

CNN-LSTMB-LSTMB-LSTM-CRF
bare embedding4s7s19s
Word2vec5s7s20s
BERT40s46s60s

最好成绩是 BERT + B-LSTM-CRF 模型效果最好。详细得分如下:

1
2
3
4
5
6
7
             precision    recall  f1-score   support

        LOC     0.9208    0.9324    0.9266      3431
        ORG     0.8728    0.8882    0.8804      2147
        PER     0.9622    0.9633    0.9627      1797

avg / total     0.9169    0.9271    0.9220      7375

模型预测

预测环境: MacBook Pro 13, 2 GHz Intel Core i5, 8G RAM

模型初始化耗时

CNN-LSTMB-LSTMB-LSTM-CRF
bare embedding13.535s9.498s8.739s
Word2vec20.042s14.942s12.553s
BERT37.952s21.986s24.435s

50个句子一次性预测

CNN-LSTMB-LSTMB-LSTM-CRF
bare embedding1.502s1.395s0.869s
Word2vec1.034s1.901s0.876s
BERT36.463s31.252s26.601s

50个句子循环预测时每个句子预测时间

CNN-LSTMB-LSTMB-LSTM-CRF
bare embedding0.014s0.019s0.035s
Word2vec0.015s0.019s0.052s
BERT0.606s0.641s0.573s

可以看得出同样的模型结构,BERT 能大幅度提高,但是也会导致训练时间,模型大小和预测时间大幅度上升。如果想在线实时预测可能性能无法达标,得考虑通过缓存之类的方案解决。

# NLP # Sequence Tagging # NER # Kashgari

 NLP - 15 分钟搭建中文文本分类模型

NLP - BERT/ERNIE 文本分类和部署 

  • 0
    点赞
  • 11
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值