python 词云生成鹿鼎记关键词

源码

import jieba.analyse
import imageio
import jieba.posseg as pseg
def jieba_cut():
    # 停用词
    fr = open('jinyong.txt', 'r',encoding='utf-8')
    stop_word_list = fr.readlines()
    new_stop_word_list = []
    for stop_word in stop_word_list:
        stop_word = stop_word.replace('\ufeef', '').strip()
        new_stop_word_list.append(stop_word)
    print(stop_word_list)  #输出停用词
    # 词语出现的次数
    fr_xyj=open('xyj.txt','r',encoding='utf-8')
    s=fr_xyj.read()
    words=jieba.cut(s,cut_all=False)
    word_dict={}
    word_list=''
    for word in words:
        if (len(word) > 1 and not word in new_stop_word_list):
            word_list = word_list + ' ' + word
            if (word_dict.get(word)):
                word_dict[word] = word_dict[word] + 1
            else:
                word_dict[word] = 1
    fr.close()
    print(word_list)
    #print(word_dict) # 词语出现的次数

    #按次数进行排序
    sort_words=sorted(word_dict.items(),key=lambda x:x[1],reverse=True)
    sort_words.append(sort_words[0])
    sort_words.append(sort_words[1])
    print(sort_words[0:101])#输出前0-100的词

    from wordcloud import WordCloud
    color_mask =imageio.imread("1.jpg")
    wc = WordCloud(
            background_color="black",  # 背景颜色
            max_words=5000,  # 显示最大词数
            font_path="C:\\Users\\ASUS\\Desktop\\simsun.ttc",  # 使用字体
            min_font_size=15,
            max_font_size=50,
            width=400,
            height=860,
            mask=color_mask) # 图幅宽度
    i=str('why')
    wc.generate(word_list)
    wc.to_file(str(i)+".jpg")
jieba_cut()

运行结果(部分)

在这里插入图片描述

查看词云

在这里插入图片描述

附件

在这里插入图片描述
注:jinyong.txt 和 xyj.txt的内容是一样的,字体附上链接,可下载
字体 simsun.ttc

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值