在自然语言处理的词干提取中,不同语言的提取规则不同,在python中,使用
nltk.stem.snowballStemmer
处理
具体如下:
from nltk import SnowballStemmer
>>> SnowballStemmer.languages
(u'danish', u'dutch', u'english', u'finnish', u'french', u'german', u'hungarian', u'italian', u'norwegian', u'porter', u'portuguese', u'romanian', u'russian', u'spanish', u'swedish')
如果处理的是英语,则可以用如下代码
>>> import nltk.stem
>>> s = nltk.stem.SnowballStemmer('english')
>>> s.stem('imaging')
u'imag'
>>>
如果处理的是意大利语,则将参数改变即可
>>> s = nltk.stem.SnowballStemmer('italian')
>>> s.stem('Commissario')
u'commissar'
>>>
此外 nltk.stem.snowball module
同样可以用于词干处理
>>> s = nltk.stem.snowball.EnglishStemmer()
>>> s.stem('imaging')
u'imag'
>>>
具体参考http://www.nltk.org/api/nltk.stem.html