NLP 基于kashgari和BERT实现中文命名实体识别（NER）

最新推荐文章于 2024-08-09 08:21:36 发布

gmHappy

最新推荐文章于 2024-08-09 08:21:36 发布

阅读量4.8k

点赞数 5

分类专栏： Python 机器学习

本文链接：https://blog.csdn.net/ctwy291314/article/details/102819221

版权

本文介绍了如何基于Kashgari和预训练的Chinese-BERT-wwm模型实现中文命名实体识别（NER）。首先，文章讲解了环境配置和数据集准备，采用了人民日报标注的数据集。接着，详细阐述了创建BERT embedding、构建BERT + B-LSTM-CRF模型并进行训练的过程。经过模型评估，BERT + B-LSTM-CRF模型表现出色。最后，提供了相关资源链接以供进一步参考。

摘要由CSDN通过智能技术生成

准备工作，先准备 python 环境，下载 BERT 语言模型

Python 3.6 环境

需要安装kashgari

Backend	pypi version desc
TensorFlow 2.x	pip install ‘kashgari>=2.0.0’ coming soon
TensorFlow 1.14+	pip install ‘kashgari>=1.0.0,<2.0.0’ current version
Keras	pip install ‘kashgari<1.0.0’ legacy version

BERT, Chinese 中文模型
我选择的是工大的BERT-wwm-ext模型

在此感谢上述作者

数据集准备

from kashgari.corpus import ChineseDailyNerCorpus

train_x, train_y = ChineseDailyNerCorpus.load_data('train')
valid_x, valid_y = ChineseDailyNerCorpus.load_data('validate')
test_x, test_y  = ChineseDailyNerCorpus.load_data('test')

print(f"train data count: {len(train_x)}")
print(f"validate data count: {len(valid_x)}")
print(f"test data count: {len(test_x)}")
train data count: 20864
validate data count: 2318
test data count: 4636

采用人民日报标注的数据集，格式为：

海 O
钓 O
比 O
赛 O
地 O
点 O
在 O
厦 B-LOC
门 I-LOC
与 O
金 B-LOC
门 I-LOC
之 O
间 O
的 O
海 O
域 O
。 O

创建 BERT embedding

import kashgari
from kashgari.embeddings import

最低0.47元/天解锁文章

gmHappy

关注

5
点赞
踩
10

收藏

觉得还不错? 一键收藏
打赏
4
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录