一下工具具有C/C++版本
中文词性标注工具:比较好的有
中科院:ictclas
具体使用方面看他里面的例子及文档很详细。突出功能是分成功能,还有命名实体识别功能。
哈工大信息检索实验室:LTP 语言技术平台
在分词词性标注命名实体语义消歧方面效果都不错。具体使用见他们的文档说明,很详细。
针对英文文章方面:
工具:BrillWin
该工具可以用来对英文语料进行词性标注,不过标注后的语料好像标点符号和NNP及NN有点问题,可以手工修改,问题不大。
使用方法说明:
语料格式:一篇文章。
可以正常的对英语进行词性标注,执行的时候主要点击批处理文件即可。该批处理文件所在的路径里不能有中文的。
命令:
tagger lexicon.brown <要处理的文件名,可以是相对路径,比如 ../data/file.txt> bigrams lexicalrulefile.brown contextualrulefile.brown > <结果文件>
命令:
tagger lexicon.brown <要处理的文件名,可以是相对路径,比如 ../data/file.txt> bigrams lexicalrulefile.brown contextualrulefile.brown > <结果文件>
注意以上的各个参数的顺序不能调换。
工具:geniatagger
该工具除了词性标注和获取因为词的原型外,好像还可以进行命名实体识别,具体没试过,不过既然可以词性标注,那么提取命名实体,其实也不难了。而且这个针对于生物语料效果不错。同时其原型提取效果也不错。
使用方法:
在geniatagger所在的文件夹下,直接命令行执行: .\geniatagger.exe <输入文件路径> 输出文件路径
注意:一定要有< >尖括号。
语料格式:Prepare a text file containing one sentence per line
语料格式:Prepare a text file containing one sentence per line
转载于:https://blog.51cto.com/pingpeace/279591