笔记-2009-An Error-Driven Word-Character Hybrid Model for Joint CWS and POS Tagging

本文介绍了一种基于错误驱动的字词混合模型,用于联合中文分词和词性标注。通过结合词级和字符级标注,利用MIRA算法进行学习。研究使用了Penn Chinese Treebank,并进行了10折交叉验证,提出了一种新的方法来处理未识别的未知词,以提高系统性能。在不同数据集上与先前方法对比,该模型表现出优越的性能。
摘要由CSDN通过智能技术生成

An Error-Driven Word-Character Hybrid Model for Joint Chinese Word Segmentation and POS Tagging
作者:神户大学,Canasai Kruengkrai, and Kiyotaka Uchimoto, and Jun’ichi Kazama, Yiou Wang, and Kentaro Torisawa, and Hitoshi Isahara
出处:Proceedings of the 47th Annual Meeting of the ACL and the 4th IJCNLP of the AFNLP, pages 513–521,Suntec, Singapore, 2-7 August2009.
word-character based标注结合MIRA算法,是Tetsuji Nakagawa继2004-2007年后的又一次改进

引言部分
分词词性标注一体化,从2004-2009得到非常广泛的关注(Ngand Low, 2004; Nakagawa and Uchimoto, 2007;Zhang and Clark, 2008; Jiang et al., 2008a; Jianget al., 2008b)
字词混合标注模型2004年提出使用,词Markov

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值