准备工作,先准备 python 环境,下载 BERT 语言模型
- Python 3.6 环境
需要安装kashgari
Backend | pypi version desc |
---|---|
TensorFlow 2.x | pip install ‘kashgari>=2.0.0’ coming soon |
TensorFlow 1.14+ | pip install ‘kashgari>=1.0.0,<2.0.0’ current version |
Keras | pip install ‘kashgari<1.0.0’ legacy version |
- BERT, Chinese 中文模型
我选择的是工大的BERT-wwm-ext
模型
在此感谢上述作者
数据集准备
from kashgari.corpus import ChineseDailyNerCorpus
train_x, train_y = ChineseDailyNerCorpus.load_data('train')
valid_x, valid_y = ChineseDailyNerCorpus.load_data('validate')
test_x, test_y = ChineseDailyNerCorpus.load_data('test')
print(f"train data count: {len(train_x)}")
print(f"validate data count: {len(valid_x)}")
print(f"test data count: {len(test_x)}")
train data count: 20864
validate data count: 2318
test data count: 4636
采用人民日报标注的数据集,格式为:
海 O
钓 O
比 O
赛 O
地 O
点 O
在 O
厦 B-LOC
门 I-LOC
与 O
金 B-LOC
门 I-LOC
之 O
间 O
的 O
海 O
域 O
。 O
创建 BERT embedding
import kashgari
from kashgari.embeddings import