import jieba
from collections import Counter
# 假设这是你的《聊斋志异》文本(这里只是一个示例)
text = """
...(这里应该是《聊斋志异》的文本内容)...
孙悟空大战白骨精,孙猴子智取芭蕉扇。
"""
# 定义同义词词典,这里只包含了孙悟空和孙猴子的例子
synonym_dict = {
'孙猴子': '孙悟空',
'孙行者': '孙悟空', # 假设这也是孙悟空的另一个称呼
# ... 其他同义词对 ...
}
# 分词并合并同义词
def tokenize_with_synonyms(text):
seg_list = jieba.cut(text, cut_all=False)
words = []
for word in seg_list:
if word in synonym_dict:
word = synonym_dict[word]
words.append(word)
return words
# 对文本进行分词并统计词频
words = tokenize_with_synonyms(text)
word_counts = Counter(words)
# 打印出现次数最高的20个词
for word, count in word_counts.most_common(20):
print(f"{word}: {count}")
jieba库统计聊斋
最新推荐文章于 2024-09-14 23:58:37 发布