【文献阅读】基于深层语言模型的古汉语知识表示及自动断句研究

概述:BERT+CRF/CNN实现古文知识表示和断句
在这里插入图片描述

2 古汉语自动断句模型

条件随机场是一种经典的序列标注模型,在中文分词、词性标注、命名实体识别等自然语言处理任务中均有着广泛应用
Zheng X,ChenJ,Shang G.Deep neuralnetwork-basedChinesesemanticrolelabeling[J/OL].ZTECommunications,2018:1-12.http://kns.cnki.net/kcms/detail/34.1294.TN.20180102.1045.002.html.[2018-01-02]
在这里插入图片描述

由于 CRF模型预测时仅能考虑当前位置及之前位置的特征,未能充分地利用上下文信息进行断句,造成了一些断句错误

3 实验及评估

3.1 数据集

古汉语深层语言模型训练

殆知阁古代文献藏书2.0版语料库

计33亿字,繁简体字混合出现

zhconv工具将文本统一转成简体

获取带标点的文言文语 料8163988
条(以段落为单位)

自动断句任务

Github中华古诗词数 据 库 https://github.com/chinese-poetry/chinese-poetry

带 标 点 的 古 诗 词 数 据,其 中 诗311691首,词 20643 首

3.2 模型及参数设置

3.3 实验结果

BERT优势

  • 第一,能够较好地捕捉古诗文表达的节奏感和韵律感
  • 第二,对上下文信息的利用较为充分,实 现 语序、语法、语义、语境等信息的编码。
    在这里插入图片描述
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值