在中文分词中,较好的分词工具有中科院的nlpir和哈工大的ltp,但是他们的词性标注集不一致,本文将中科院的词性标注集映射到了哈工大的词性标注集。
dic = {
'n': 'n',
'nr': 'nh',
'nr1': 'nh',
'nr2': 'nh',
'nrf': 'nh',
'nrj': 'nh',
'ns': 'ns',
'nsf': 'ns',
'nt': 'ni',
'nz': 'nz',
'nl': 'n',
'ng': 'n',
't': 'nt',
'tg': 'nt',
's': 'nl',
'f': 'nd',
'v': 'v',
'vd':'n',
'vn'