nltk系列：Lemmatisation和Stemming(NLTK pos_tag word_tokenize)

最新推荐文章于 2024-07-11 08:30:12 发布

try_trying_try

最新推荐文章于 2024-07-11 08:30:12 发布

阅读量845

点赞数 2

分类专栏： nlp

本文链接：https://blog.csdn.net/u012114900/article/details/107787564

版权

nlp 专栏收录该内容

7 篇文章 0 订阅

订阅专栏

英文文本预处理

总结非常好的blog
Lemmatisation和Stemming(NLTK pos_tag word_tokenize)

#方法一
from nltk.stem import WordNetLemmatizer
def lemmatize_all(sentence):  #Input:sentence
    wnl=WordNetLemmatizer()
    for word,tag in pos_tag(word_tokenize(sentence)): #分词+词性标注
        if tag.startswith('NN'):
            yield wnl.lemmatize(word,pos='n')
        elif tag.startswith('VB'):
            yield wnl.lemmatize(word, pos='v')
        elif tag.startswith('JJ'):
            yield wnl.lemmatize(word, pos='a')
        elif tag.startswith('R'):
            yield wnl.lemmatize(word, pos='r')
        else:
            yield word

train_f=[]
for i in range(len(train_feature)): #train_feature:sentence就行
    train_f.append(''.join(lemmatize_all(train_feature[i])))


#方法二

python 新语法get
yield的用法详解——最简单，最清晰的解释

def foo(num):
    while num<10:
        num+=1
        yield num
for n in foo(0):
    print(n)

#_________________________________________________#

分词

新功能get
TreebankWordTokenizer依据PennTreebank语料库的约定，通过分离缩略词来实现切分
PunktWordTokenizer通过分离标点来实现切分的，每一个单词都会被保留
在这里插入图片描述

try_trying_try

关注

2
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录