我主要参考这篇文章进行实践:点击打开链接
python版本:3.5
首先整体步骤分为两步:第一步,抓取好友个性签名,这一步主要依靠itchat实现;第二步,分词并形成词云,主要依靠jieba和wordcloud实现。
1.抓取数据
抓取数据的过程非常简单,这里主要应用了itchat这个库,可以直接获取好友数据。itchat的具体其他用途请参考:点击打开链接
执行到第二行代码时会生成二维码,用手机扫描登陆即可。执行第三行代码后生成一个放置好友信息的列表fl,里面放置昵称,省份,城市,个性签名等数据,一般而言,第一个位置的信息是自己。
由于我们这里要抓取的是个性签名,于是要调用“signature"这个键值:
由于有很多本来是表情的,变成了 emoji、span、class 等等这些无关紧要的词,需要先替换掉,另外,还有类似<>/= 之类的符号,也需要写个简单的正则替换掉,再把所有拼起来,得到 text 字串。
到这一步为止,我们已经抓取出需要的数据并处理好,接下来进入分词和形成词云。
2.分词和词云
使用jieba分词,并形成放置词语与对应词频的字典。
最后通过wordcloud形成词云。
以下是我分析我的好友得到的结果:
看起来我的好友们更倾向于抒发对人生的感悟~