基于
BiLSTM-CRF
的古汉语自动断句与词法分析一体化研
究
程宁
;
李斌
;
葛四嘉
;
郝星月
;
冯敏萱
【期刊名称】
《中文信息学报》
【年
(
卷
),
期】
2020(034)004
【摘要】
古汉语信息处理的基础任务包括自动断句、自动分词、词性标注、专
名识别等
.
大量的古汉语文本未经标点断句
,
所以词法分析等任务首先需要建立在
断句基础之上
.
然而
,
分步处理容易造成错误的多级扩散
,
该文设计实现了古汉语
断句与词法分析一体化的标注方法
,
基于
BiLSTM-CRF
神经网络模型在四种跨时
代的测试集上验证了不同标注层次下模型对断句、词法分析的效果以及对不同
时代文本标注的泛化能力
.
研究表明
,
一体化的标注方法对古汉语的断句、分词及
词性标注任务的
F1
值均有提升
.
综合各测试集的实验结果
,
断句任务
F1
值达到
78.95
%
,
平均提升了
3.5
%
;
分词任务
F1
值达到
85.73
%
,
平均提升了
0.18
%
;
词
性标注任务
F1
值达到
72.65
%
,
平均提升了
0.35
%
.
【总页数】
9
页
(1-9)
【关键词】
古文断句
;
分词
;
词性标注
; BiLSTM-CRF;
古汉语信息处理
【作者】
程宁
;
李斌
;
葛四嘉
;
郝星月
;
冯敏萱
【作者单位】
南京师范大学
文学院
江苏
南京
210097;
哈佛大学
计量社会科学
研究所
美国
剑桥
02138
【正文语种】
中文
【中图分类】
TP391
【相关文献】