看来你正在处理Ngrams.请注意,此答案假设您的词典中有许多键,而不是可能的N-gram.在这种情况下,从文本生成n-gram更有效,而不是迭代字典键(与其他答案的情况一样).
首先定义密钥字典.
keys = {
'X ontology entity': 0,
'X entity': 1,
'image quality': 10,
'right lower kidney': 10,
'magnetic resonance imaging': 10312,
'MR imaging': 10312,
}
您需要在一个范围内(您决定)生成所有N-gram,并且对于每个n-gram,确定它是否作为字典中的键存在.
import re
def get_ngrams(tokens, ngram_range):
return {' '.join(tokens[i:i+r])
for i in range(len(tokens)) for r in range(*ngram_range)}
ngram_range = (1, 4) # Right exclusive.
tokens = re.sub(r'[^a-zA-Z]', ' ', text).split()
found_tokens = set(filter(keys.__contains__, get_ngrams(tokens, ngram_range)))
print(found_tokens)
# {'MR imaging', 'right lower kidney'}
请记住,对于较大的范围和字符串,这将成为一项昂贵的操作.
您可以通过识别在过滤之前不是所有N-gram都需要存储在内存中来优化一点.我们可以使用生成器和循环节省大量时间:
def ngrams_generator(tokens, ngram_range):
yield from (' '.join(tokens[i:i+r])
for i in range(len(tokens)) for r in range(*ngram_range))
found_ngrams = set()
for ngram in ngrams_generator(tokens, ngram_range):
if ngram in keys:
found_ngrams.add(ngram)
print(found_ngrams)
# {'MR imaging', 'right lower kidney'}