代码练习系列（四）——对指定语料（corpus文件夹下所有内容）构建字典

马斯洛金字塔下的小灵猴儿

已于 2024-07-15 20:21:12 修改

阅读量48

点赞数 1

分类专栏：深度学习架构师考试通关秘籍文章标签：深度学习考试

于 2024-07-15 18:37:14 首次发布

本文链接：https://blog.csdn.net/GOOD_CODER/article/details/140446144

版权

深度学习架构师考试通关秘籍专栏收录该内容

35 篇文章 1 订阅 ¥19.90 ¥99.00

订阅专栏

超级会员免费看

import jieba
import os

# 读取语料
root = r".\corpus"
words = set()
for file in os.listdir(root):
    file_path = os.path.join(root, file)
    with open(file=file_path, mode="r", encoding="utf8") as f:
        data = jieba.lcut(f.read())
        words = words.union(set(data))

# 构建字典
word2idx = {word: idx for idx, word in enumerate(words)}
idx2word = {idx: word for word, idx in word2idx.items()}