中文词性标注 Stanford POS tagger

Eshjamtsan

于 2022-08-12 10:35:32 发布

阅读量426

点赞数

文章标签： java

本文链接：https://blog.csdn.net/qq_52557561/article/details/126281886

版权

模型

/models/chinese-distsim.tagger 
/models/chinese-nodistsim.tagger

2.用法

java -mx300m -cp 'stanford-postagger.jar:' edu.stanford.nlp.tagger.maxent.MaxentTagger -tokenize false -encoding utf-8 -model models/chinese-distsim.tagger -textFile input.txt

3.其他参数

-tagSeparator '' # 词语与词性标签的分隔符
-encoding   UTF-8 #编码方式
-tokenize false #false值时输入的文本是分词好的，true时需要被分词。
-lang  'chinese'    #'english' (Penn tag set), 'polish' (very rudimentary), 'french',  'arabic', 'german', and 'medline'.