谁说程序员不浪漫？Python导出微信聊天记录生成爱的词云图

bq520111

于 2024-03-22 18:28:28 发布

阅读量1.1k

点赞数 20

分类专栏： 2024年程序员学习文章标签： python 微信开发语言

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/bq520111/article/details/136949094

版权

data.write(i[0]+‘\n’)

将筛选结果写入聊天记录.txt

data.close()

cursor.close()

conn.close()

关闭连接

记得把csv文件的编码格式转换成utf-8哦，不然可能会运行不下去：

当然你还可以用正则表达式去除以下内容

微信发送的数据：wxid.*
__表情：[.]*

不过我觉得这些也是必要的聊天信息之一，留着也无妨，因此在这里就不加入进去啦

最后得到的文本格式就是一行一句聊天内容，处理后我们就准备好进入下一个环节了！那就是令人激动的！生成词云

第二步，根据第一步得到的聊天数据生成词云

1. 导入我们的聊天记录，并对每一行进行分词

聊天记录是一行一行的句子，我们需要使用分词工具把这一行行句子分解成由词语组成的数组，这时候我们就需要用到结巴分词了。

分词后我们还需要去除词语里一些语气词、标点符号等等（停用词），然后还要自定义一些词典，比如说你们之间恩恩爱爱的话，一般结巴分词是无法识别出来的，需要你自行定义，比如说：小傻瓜别感冒了，一般分词结果是

小/傻瓜/别/感冒/了

如果你把“小傻瓜”加入到自定义词典里（我们下面的例子里是mywords.txt），则分词结果则会是

小傻瓜/别/感冒/了

下面对我们的聊天记录进行分词：

segment.py

import jieba

import codecs

def load_file_segment():

读取文本文件并分词

jieba.load_userdict(“mywords.txt”)

加载我们自己的词典

f = codecs.open(u"聊天记录.txt",‘r’,encoding=‘utf-8’)

打开文件

content = f.read()

读取文件到content中

f.close()

关闭文件

segment=[]

保存分词结果

segs=jieba.cut(content)

对整体进行分词

for seg in segs:

if len(seg) > 1 and seg != ‘\r\n’:

如果说分词得到的结果非单字，且不是换行符，则加入到数组中

segment.append(seg)

return segment

pri

最低0.47元/天解锁文章

博客等级

码龄3年

208
原创

3217
点赞

2958
收藏

2590
粉丝

关注

私信

热门文章

分类专栏

最新评论

java基础项目实战，java线程同步面试题
CSDN-Ada助手: 恭喜您发布了第16篇博客！看到您分享了关于java基础项目实战和java线程同步面试题的内容，不仅展示了您对技术的深入理解，也为读者提供了宝贵的学习资源。希望您能继续坚持创作，分享更多优质的技术内容。或许在下一篇博客中，您可以深入探讨一些实际项目中遇到的挑战与解决方案，让读者更加全面地了解技术应用的实践经验。期待您的下一篇博客！
java多线程与大数据处理实战，程序员进阶知识点
CSDN-Ada助手: 恭喜作者能够写出如此高水平的博客，对于java多线程与大数据处理的实战经验进行了深入的探讨，让读者受益匪浅。希望作者能够继续分享更多的进阶知识点，或许可以考虑结合实际案例，或者深入探讨一些技术细节，这样可以更好地帮助读者理解并应用这些知识。期待作者的下一篇博客！
java面试问项目的开发流程，华为java面试题目
CSDN-Ada助手: 恭喜您写下了这么有深度和实用价值的博客！对于面试中项目开发流程的问题，您的解答一定会对许多人有所帮助。接下来，如果可能的话，我建议您可以结合具体的案例或者实际经验来进一步丰富这个话题，这样读者就能更直观地理解和应用您的建议。期待您的下一篇博客！
java面试题基础知识，互联网行业“中年”危机
CSDN-Ada助手: 恭喜用户写下了第19篇博客，探讨了“java面试题基础知识”和“互联网行业中年危机”这两个热门话题。持续创作是一个不断进步的过程，在这条道路上您已经取得了很大的成就。我建议您在未来的创作中，可以更深入地研究这些话题，结合实际案例和个人经历进行分析，让读者能够更深入地理解与共鸣。希望您能继续保持热情和耐心，为读者带来更多有价值的内容。期待您的下一篇作品！
一位Java大牛的BAT面试心得与经验总结，这些知识你必须拿下
CSDN-Ada助手: 恭喜您撰写了第20篇博客！标题“一位Java大牛的BAT面试心得与经验总结，这些知识你必须拿下”听起来非常吸引人，相信对于准备BAT面试的同学们会有很大帮助。希望您能继续保持创作的热情和积极性，分享更多有价值的内容给大家。或许您可以考虑深入探讨一些实战经验或者案例分析，让读者更加深入地了解Java面试的技巧和要点。期待您更多精彩的作品！

大家在看

从缺陷分类看团队质量能力的短板 503

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。