自然语言处理--nltk 中的 n-gram 分词器

n-gram 是一个最多包含 n 个元素的序列,这些元素从由它们组成的序列(通常是字符串)中提取而成。一般来说,n-gram 的“元素”可以是字符、音节、词,甚至是像“A”“T”“G”“C”等表示 DNA 序列的符号。

将单词条的概念扩展到多词条构成的 n-gram,NLP 流水线就可以保留语句词序中隐含的很多含义。例如,否定词“not”就会和它所属的相邻词在一起。如果分词不考虑 n-gram,那么“not”就会自由漂移,而不会固定在某几个词周围,其否定的含义可能就会与整个句子甚至整篇文档,而不是只与某几个相邻词关联,从而造成误导。

from nltk.util import ngrams
import re

sentence = """Thomas Jefferson began building Monticello at the age of 26."""
pattern = re.compile(r"([-\s.,;!?])+")
tokens = pattern.split(sentence)
tokens = [x for x in tokens if x and x not in '- \t\n.,;!?']
print(list(ngrams(tokens, 2)))
print(list(ngrams(tokens, 3)))

# 将允许nlp流水线的后续阶段预期输入的数据类型保持一致,即都是字符串序列
two_grams = list(ngrams(tokens, 2))
print([" ".join(x) for x in two_grams])
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值