自然语言处理(NLP) 二：词形还原 + 词块划分

最新推荐文章于 2024-02-26 20:51:26 发布

爱跑步的george

最新推荐文章于 2024-02-26 20:51:26 发布

阅读量3.4k

点赞数 2

分类专栏：自然语言处理

本文链接：https://blog.csdn.net/weixin_38246633/article/details/80637192

版权

自然语言处理专栏收录该内容

6 篇文章 2 订阅

订阅专栏

1、词形还原

名字：复数->单数
动词：分词->原型

import nltk.stem as ns

words = ['table','probably','wolves','playing','is','dog','the','beaches','grounded','dreamt','envision']

lemmatizer = ns.WordNetLemmatizer()
for word in words:
    lemma = lemmatizer.lemmatize(word,'n')
    print(lemma)
print('-'*72)
for word in words:
    lemma = lemmatizer.lemmatize(word,'v')
    print(lemma)

2、词块划分

import nltk.corpus as nc 
doc = ' '.join(nc.brown.words()[:310])
print(doc)
words = doc.split()
print(words)
chunks = []
for word in words:
    if len(chunks) == 0 or len(chunks[-1])==5:
        chunks.append([])
    chunks[-1].append(word)
for chunk in chunks:
    for word in chunk:
        print('{:15}'.format(word),end='')
    print()

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

爱跑步的george

关注关注

2
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
自然语言处理(NLP) 二：词形还原 + 词块划分

1、词形还原名字：复数-&gt;单数动词：分词-&gt;原型import nltk.stem as nswords = ['table','probably','wolves','playing','is','dog','the','beaches','grounded','dreamt','envision']lemmatizer = ns.WordNetLemmatizer...
复制链接

扫一扫