'''
sent = [['I','am', 'a', 'student', '.'],['who', 'are', 'you','?'],['my', 'name', 'is', 'student']]
生成词汇集合
'''
def build_vocab(sentences):
# build vocabulary
word_counts = Counter(itertools.chain(*sentences))
# Mapping from index to word
vocabulary_inv = [x[0] for x in word_counts.most_common()] # most_common(n)返回一个TopN列表, 如果n没有被指定,则返回所以元素
python片段,生成语料中词以及词对应Id
最新推荐文章于 2024-09-03 10:01:10 发布
本文介绍如何使用Python处理语料库,详细阐述了生成词及其对应ID的方法,为自然语言处理的预处理步骤提供了一个基础示例。
摘要由CSDN通过智能技术生成