概述:BERT+CRF/CNN实现古文知识表示和断句
2 古汉语自动断句模型
条件随机场是一种经典的序列标注模型,在中文分词、词性标注、命名实体识别等自然语言处理任务中均有着广泛应用
Zheng X,ChenJ,Shang G.Deep neuralnetwork-basedChinesesemanticrolelabeling[J/OL].ZTECommunications,2018:1-12.http://kns.cnki.net/kcms/detail/34.1294.TN.20180102.1045.002.html.[2018-01-02]
由于 CRF模型预测时仅能考虑当前位置及之前位置的特征,未能充分地利用上下文信息进行断句,造成了一些断句错误
3 实验及评估
3.1 数据集
古汉语深层语言模型训练
殆知阁古代文献藏书2.0版语料库
计33亿字,繁简体字混合出现
zhconv工具将文本统一转成简体
获取带标点的文言文语 料8163988
条(以段落为单位)
自动断句任务
Github中华古诗词数 据 库 https://github.com/chinese-poetry/chinese-poetry
带 标 点 的 古 诗 词 数 据,其 中 诗311691首,词 20643 首
3.2 模型及参数设置
3.3 实验结果
BERT优势
- 第一,能够较好地捕捉古诗文表达的节奏感和韵律感
- 第二,对上下文信息的利用较为充分,实 现 语序、语法、语义、语境等信息的编码。