依存分析:基于序列标注的中文依存句法分析模型实现

本文介绍了基于序列标注的中文依存句法分析模型的实现过程,包括数据源的选择(使用清华大学语义依存网络语料)、语料预处理(将依存关系转换为分类任务,处理类别标签)、特征选择(3-gram抽取)和模型处理(采用条件随机场)。在训练和测试中发现,模型效果不理想,可能的原因包括窗口大小、特征选取、语料错误和标签合法性约束等。
摘要由CSDN通过智能技术生成

一、前言

1、中文依存句法分析

二、实战

1、数据源

数据采用清华大学语义依存网络语料作为训练集,同时在开发集上进行测试。

(1)语料预处理

原语料库如下:

1   坚决  坚决  a   ad  _   2   方式  
2   惩治  惩治  v   v   _   0   核心成分    
3   贪污  贪污  v   v   _   7   限定  
4   贿赂  贿赂  n   n   _   3   连接依存    
5   等   等   u   udeng   _   3   连接依存    
6   经济  经济  n   n   _   7   限定  
7   犯罪  犯罪  v   vn  _   2   受事  

格式说明:

1   ID  当前词在句子中的序号,1开始.
2   FORM    当前词语或标点  
3   LEMMA   当前词语(或标点)的原型或词干,在中文中,此列与FORM相同
4   CPOSTAG 当前词语的词性(粗粒度)
5   POSTAG  当前词语的词性(细粒度)
6   FEATS   句法特征,在本次评测中,此列未被使用,全部以下划线代替。
7   HEAD    当前词语的中心词
8   DEPREL  当前词语与中心词的依存关系

对于依存句法分析,本质上可以转换为分类问题,所以将依存句法作为序列标注任务进行解决也是可行的。鉴于依存关系类过多&#x

评论 9
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值