中文词性标注

中文词性标注

最近我想练习一下中文词性标注,所以找了一个数据集,人民日报PKU数据集。


数据集

数据集来自北大计算语言所,对1998年1月《人民日报》中的句子进行词性标注,语料格式为:

19980101-01-001-001/m 迈向/v 充满/v 希望/n 的/u 新/a 世纪/n ——/w 一九九八年/t 新年/t 讲话/n (/w 附/v 图片/n 1/m 张/q )/w

这个数据集中总共19484个句子提供训练测试。我对语料集做了特殊处理,去掉了不规范的不含’/'的标注,使得标注更加规范。


工具脚本

由于数据集内并不附赠脚本,所以我自己实现了一个工具脚本tool.py

tool.py
'''
	tool.py
	This is a tool for scoring posTag algorithm.
	Just scoring an algorithm with:
		> driver(trainLines, testLines, trainFunction, posTagFunction):
	And this tool will print a report of accuracy.
	Note: There are 19484 sentences in data set 'data.txt'.
	
	Zhang Zhiyuan ,EECS Peking Univ. 2017/02/23
'''

class dataType:
	def __init__(self):
		self.__fd = open('data.txt'
评论 9
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值