自然语言处理(NLP) 二:词形还原 + 词块划分

1、词形还原

名字:复数->单数
动词:分词->原型

import nltk.stem as ns

words = ['table','probably','wolves','playing','is','dog','the','beaches','grounded','dreamt','envision']

lemmatizer = ns.WordNetLemmatizer()
for word in words:
    lemma = lemmatizer.lemmatize(word,'n')
    print(lemma)
print('-'*72)
for word in words:
    lemma = lemmatizer.lemmatize(word,'v')
    print(lemma)

2、词块划分

import nltk.corpus as nc 
doc = ' '.join(nc.brown.words()[:310])
print(doc)
words = doc.split()
print(words)
chunks = []
for word in words:
    if len(chunks) == 0 or len(chunks[-1])==5:
        chunks.append([])
    chunks[-1].append(word)
for chunk in chunks:
    for word in chunk:
        print('{:15}'.format(word),end='')
    print()
  • 2
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值