中英文分词及词性标注工具

最新推荐文章于 2024-04-08 09:44:36 发布

SmallCSer

最新推荐文章于 2024-04-08 09:44:36 发布

阅读量1.4w

点赞数 2

分类专栏：文本挖掘/自然语言处理

文本挖掘/自然语言处理专栏收录该内容

33 篇文章 1 订阅

订阅专栏

1.中文分词、词性标注

中科院：ictclas

http://www.ictclas.org/sub_1_1.html

具体使用方面看他里面的例子及文档很详细。突出功能是分词功能，还有命名实体识别功能。

哈工大信息检索实验室：LTP 语言技术平台

http://ir.hit.edu.cn/

http://ir.hit.edu.cn/demo/ltp/Sharing_Plan.htm

在分词词性标注命名实体语义消歧方面效果都不错

stanford parser

http://nlp.stanford.edu/software/tagger.shtml#About

2.英文词性标注

Stanford Log-linear Part-Of-Speech Tagger
http://nlp.stanford.edu/software/tagger.shtml

POS tagger（词性标注工具）

Jesus Gimenez, Lluis Marquez开发的使用SVM进行英文词性标注的工具，有C++、Perl语言的软件包。

相关论文: SVMTool: A general POS tagger generator based on Support Vector Machines (2004)

工具主页: http://www.lsi.upc.es/~nlp/SVMTool/

CLAWS POS tagger （只能在线试用）
http://ucrel.lancs.ac.uk/claws/trial.html

PosTagger
http://www-tsujii.is.s.u-tokyo.ac.jp/~tsuruoka/postagger/

工具：BrillWin？

该工具可以用来对英文语料进行词性标注，不过标注后的语料好像标点符号和NNP及NN有点问题，可以手工修改，问题不大。

使用方法说明：

语料格式：一篇文章。

可以正常的对英语进行词性标注，执行的时候主要点击批处理文件即可。该批处理文件所在的路径里不能有中文的。
命令：
tagger lexicon.brown <要处理的文件名,可以是相对路径，比如 ../data/file.txt> bigrams lexicalrulefile.brown contextualrulefile.brown > <结果文件>

注意以上的各个参数的顺序不能调换。

工具：geniatagger

http://www-tsujii.is.s.u-tokyo.ac.jp/GENIA/tagger/

该工具除了词性标注和获取因为词的原型外，好像还可以进行命名实体识别，具体没试过，不过既然可以词性标注，那么提取命名实体，其实也不难了。而且这个针对于生物语料效果不错。同时其原型提取效果也不错。

使用方法：

在geniatagger所在的文件夹下，直接命令行执行： .\geniatagger.exe <输入文件路径> 输出文件路径

注意：一定要有< >尖括号。
语料格式：Prepare a text file containing one sentence per line

Porter Stemming Algorithm

http://tartarus.org/~martin/PorterStemmer/

提供多种语言版本的源码

【tokenization、Stemming、 lemmatization】

关注

2
点赞
踩
13

收藏

觉得还不错? 一键收藏
0
评论
中英文分词及词性标注工具

1.中文分词、词性标注中科院：ictclashttp://www.ictclas.org/sub_1_1.html具体使用方面看他里面的例子及文档很详细。突出功能是分词功能，还有命名实体识别功能。哈工大信息检索实验室：LTP 语言技术平台http://ir.hit.edu.cn/http://ir.hit.edu.cn/demo/ltp/Sharing_Plan.ht
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。