用QQ聊天记录生成一个词云

问题与思路

在了解了 Python 可以制作词云图后便想利用它来做点什么,于是便决定将自己和女朋友的聊天记录导出来做一个词云图看看。QQ的聊天记录可以通过消息管理器导出为 .txt 格式,具体的操作不再赘述。本文的分词工具采用的是 jieba 分词。

系统环境说明

本文的实验环境是 Python 3.6.1 |Anaconda 4.4.0 (64-bit),Win10

依赖包

jieba 、wordcloud 、PIL

安装方式
pip install jieba

其它的包也是同样的安装方式,不再赘述。

代码
import jieba
import matplotlib.pyplot as plt
from wordcloud import WordCloud, ImageColorGenerator, random_color_func
import os
import numpy as np
import PIL.Image as Image
import re

with open('聊天记录.txt', encoding="utf8") as fp:
    text = fp.read()

text_cleansing = re.sub("((\d){4}-(\d){2}-(\d){2} \d\d:\d\d:\d\d)|\n|[表情]|[图片]|\[|\]", "", text).replace('mmmm*~~', '胡颖').replace('??', '胡颖')
jieba.add_word('高正杰')  # 将名字加入词典
jieba.add_word('胡颖')  # 同上
wordlist_jieba = jieba.cut(text_cleansing, cut_all=True)  # 分词
wl_space_split = " ".join(wordlist_jieba)
alice_coloring = np.array(Image.open("wechat2.jpg"))
my_wordcloud = WordCloud(background_color="white", max_words=5000, mask=alice_coloring, max_font_size=60,
                         font_path='C:\Windows\Fonts\msyhl.ttc').generate(wl_space_split)
image_colors = ImageColorGenerator(alice_coloring)
plt.imshow(my_wordcloud.recolor(color_func=image_colors))
# plt.imshow(my_wordcloud.recolor(color_func=random_color_func))
plt.imshow(my_wordcloud, interpolation="bilinear")
plt.axis("off")
plt.show()
效果图

背景图1

效果图1

背景图2

效果图2

总结

虽然做出了效果,但是总感觉没有别人做的云图好看,关于背景图的选择,前景的字体颜色如何设置,均还有较大的空间值得学习。另外通过云图可以明显看出我平常和女朋友的聊天过程中说 哈哈 的次数真多,不得不说这真是一件幸福的事情!

参考文献

[1] http://www.yeayee.com/article-6655592-1.html 这篇文章对 WordCloud 的每个参数讲解比较细致,推荐仔细阅读。
[2] https://www.jianshu.com/p/e4b24a734ccc 王树义老师的文章,一如既往地详细。

  • 16
    点赞
  • 58
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 12
    评论
评论 12
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

清风醉雨

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值