中英文分词及词性标注工具

1.中文分词、词性标注

中科院:ictclas
具体使用方面看他里面的例子及文档很详细。突出功能是分词功能,还有命名实体识别功能。
 
哈工大信息检索实验室:LTP 语言技术平台
在分词词性标注命名实体语义消歧方面效果都不错
stanford parser

2.英文词性标注  

Stanford Log-linear Part-Of-Speech Tagger 
http://nlp.stanford.edu/software/tagger.shtml

POS tagger(词性标注工具)
Jesus Gimenez, Lluis Marquez开发的使用SVM进行英文词性标注的工具,有C++、Perl语言的软件包。

CLAWS POS tagger (只能在线试用)
http://ucrel.lancs.ac.uk/claws/trial.html
 
PosTagger 
http://www-tsujii.is.s.u-tokyo.ac.jp/~tsuruoka/postagger/ 

工具:BrillWin
该工具可以用来对英文语料进行词性标注,不过标注后的语料好像标点符号和NNP及NN有点问题,可以手工修改,问题不大。
使用方法说明:
语料格式:一篇文章。
可以正常的对英语进行词性标注,执行的时候主要点击批处理文件即可。该批处理文件所在的路径里不能有中文的。
命令:
tagger lexicon.brown <要处理的文件名,可以是相对路径,比如 ../data/file.txt> bigrams lexicalrulefile.brown contextualrulefile.brown > <结果文件>
注意以上的各个参数的顺序不能调换。
 
工具:geniatagger
该工具除了词性标注和获取因为词的原型外,好像还可以进行命名实体识别,具体没试过,不过既然可以词性标注,那么提取命名实体,其实也不难了。而且这个针对于 生物语料效果不错。同时其原型提取效果也不错。
  使用方法:
在geniatagger所在的文件夹下,直接命令行执行:  .\geniatagger.exe <输入文件路径> 输出文件路径
注意:一定要有< >尖括号。
语料格式:Prepare a text file containing one sentence per line
Porter Stemming Algorithm
提供多种语言版本的源码

【tokenizationStemming、 lemmatization】

  • 2
    点赞
  • 13
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
好的,让我们来介绍一下如何使用 NLTK 和 jieba 进行中英文分词词性标注。 首先,我们需要安装 NLTK 和 jieba。可以在命令行中使用以下命令安装: NLTK:`pip install nltk` jieba:`pip install jieba` 接下来,我们可以使用 NLTK 中的 `pos_tag()` 函数和 jieba 中的 `posseg` 模块来分别进行英文和中文的词性标注。 对于英文,我们可以使用 NLTK 中的 `pos_tag()` 函数,示例代码如下: ```python import nltk nltk.download('punkt') nltk.download('averaged_perceptron_tagger') text = "This is a sample English sentence." tokens = nltk.word_tokenize(text) pos_tags = nltk.pos_tag(tokens) print(pos_tags) ``` 输出结果: ``` [('This', 'DT'), ('is', 'VBZ'), ('a', 'DT'), ('sample', 'JJ'), ('English', 'JJ'), ('sentence', 'NN'), ('.', '.')] ``` 其中,`pos_tag()` 函数的输入是一个被分词后的单词列表,返回值是一个元组列表,每个元组包含单词和对应的词性标注。 对于中文,我们可以使用 jieba 中的 `posseg` 模块,示例代码如下: ```python import jieba.posseg as pseg text = "这是一个样例中文句子。" words = pseg.cut(text) for word, flag in words: print(word, flag) ``` 输出结果: ``` 这 r 是 v 一个 m 样例 n 中文 nz 句子 n 。 x ``` 其中,`pseg.cut()` 函数的输入是一个中文句子,返回值是一个生成器,每次迭代产生一个元组,包含分词和对应的词性标注。 需要注意的是,中文分词词性标注的准确性受到语料库的影响。可以使用已有的语料库,也可以根据自己的需求创建和使用语料库。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值