Python数据 分析微信朋友圈

个人兴趣爱好,通过python对微信朋友圈进行了分析,主要对微信好友进行提取,对好友地区分布,签名等进行可视化

需要安装包如下:

pip3 install itchat
pip3 install pandas
pip3 install echarts-countries-pypkg
pip3 install echarts-china-provinces-pypkg
pip3 install echarts-china-cities-pypkg
pip3 install pyecharts
pip3 install jieba
pip3 install wordcloud
pip3 install numpy

获取微信圈好友信息

import itchat
​
# 按照key得到相关list
def get_attr(friends, key):
    return list(map(lambda user: user.get(key), friends))
​
​
def get_friends():
    itchat.auto_login(hotReload=True)
    friends = itchat.get_friends()
    users = dict(province=get_attr(friends, "Province"),
                 city=get_attr(friends, "City"),
                 nickname=get_attr(friends, "NickName"),
                 sex=get_attr(friends, "Sex"),
                 signature=get_attr(friends, "Signature"),
                 remarkname=get_attr(friends, "RemarkName"),
                 pyquanpin=get_attr(friends, "PYQuanPin"),
                 displayname=get_attr(friends, "DisplayName"),
                 isowner=get_attr(friends, "IsOwner"))
    return users
itchat.auto_login(hotReload=True) 

登录微信圈好友,hotReload参数表示短时间
内不需要扫码可登陆(在项目下生成itchat.pkl文件),执行上述代码,弹出登录二维码,只需要拿出手机—>扫码登录即可。处理后数据为一个dict

数据分析

好友性别

先来看下朋友圈好友性别比例

import numpy
import pandas as pd
from pyecharts import Pie, Map, Style, Page, Bar
​
def sex_stats(users):
    df = pd.DataFrame(users)
    sex_arr = df.groupby(['sex'], as_index=True)['sex'].count()
    data = dict(zip(list(sex_arr.index), list(sex_arr)))
    data['不告诉你'] = data.pop(0)
    data['帅哥'] = data.pop(1)
    data['美女'] = data.pop(2)
    return data.keys(), data.values()
​
def create_charts():
    users = get_friends()
​
    page = Page()
    style = Style(width=1100, height=600)
    style_middle = Style(width=900, height=500)
  
    data = sex_stats(users)
    attr, value = data
    chart = Pie('微信性别')  # title_pos='center'
    chart.add('', attr, value, center=[50, 50],
              radius=[30, 70], is_label_show=True, legend_orient='horizontal', legend_pos='center',
              legend_top='bottom', is_area_show=True)
    page.add(chart)
    page.render()

pandas 为数据分析工具,类似数据库中的表。df.groupby(['sex'], as_index=True)['sex'].count() 按性别统计好友数,Pie为环形图类。一共好友190个,帅哥占比57.37,美女38.42,本人屌丝程序员一枚,所有帅哥比较多

省份分布

再来看看各省份好友分布情况

  
  def prov_stats(users):
      prv = pd.DataFrame(users)
      prv_cnt = prv.groupby('province', as_index=True)['province'].count().sort_values()
      attr = list(map(lambda x: x if x != '' else '未知', list(prv_cnt.index)))
      return attr, list(prv_cnt)  def create_charts():
  ​
  def create_charts():
      users = get_friends()
  ​
      data = prov_stats(users)
      attr, value = data
    
      chart = Map('中国地图', **style.init_style)
      chart.add('', attr, value, is_label_show=True, is_visualmap=True, visual_text_color='#000')
      page.add(chart)
    
      chart = Bar('柱状图', **style_middle.init_style)
      chart.add('', attr, value, is_stack=True, is_convert=True, label_pos='inside', is_legend_show=True,
                is_label_show=True)
      page.add(chart)
      page.render()

得到各省份好友分布图,主要集中在广东和湖北,工作生活一直在广东。广东好友112个,那么接下来看看广东省主要分布在哪些市

广东省分布

 def gd_stats(users):
     df = pd.DataFrame(users)
     data = df.query('province == "广东"')
     res = data.groupby('city', as_index=True)['city'].count().sort_values()
     attr = list(map(lambda x: '%s市' % x if x != '' else '未知', list(res.index)))
     return attr, list(res)
     
 def create_charts():
     users = get_friends()
 ​
     data = gd_stats(users)
     attr, value = data
     chart = Map('广东', **style.init_style)
     chart.add('', attr, value, maptype='广东', is_label_show=True, is_visualmap=True, visual_text_color='#000')
     page.add(chart)
 ​
     chart = Bar('柱状图', **style_middle.init_style)
     chart.add('', attr, value, is_stack=True, is_convert=True, label_pos='inside', is_label_show=True)
     page.add(chart)
 ​
     page.render()

广东省主要分布在珠海、深圳、广州珠三角,因为笔者先后在深圳、珠海工作过

签名词云

先用jieba库对个性签名进行分词

  def jieba_cut(users):
      signature = users['signature']
      words = ''.join(signature)
      res_list = jieba.cut(words, cut_all=True)
      return res_list
再用WordCloud生成词云

  def create_wc(words_list):
      res_path = os.path.abspath('./resource')
  ​
      words = ' '.join(words_list)
  ​
      back_pic = numpy.array(Image.open("%s/china1.png" % res_path))
  ​
      stopwords = set(STOPWORDS)
      stopwords = stopwords.union(set(['class','span','emoji','emoji','emoji1f388','emoji1f604']))
  ​
  ​
      wc = WordCloud(background_color="white", margin=0,
                     font_path='%s/hanyiqihei.ttf' % res_path,
                     mask=back_pic,
                     max_font_size=70,
                     stopwords=stopwords
                     ).generate(words)
  ​
      # image_colors = ImageColorGenerator(back_pic)
  ​
      plt.imshow(wc)
  ​
      # plt.imshow(wc.recolor(color_func=image_colors))
  ​
      plt.axis('off')
      plt.show()

分析时发现有些无用词语['class','span','emoji','emoji','emoji1f388','emoji1f604']需要排除,加入停词set。笔者的背景图片和字体放在项目 './resource' 下,注意:font_path必须设置,否则生成为乱码,back_pic为背景图片形状

通过图片可以看到最大词汇为世界、自己、生活,说明朋友还是比较正能量

至此,对朋友圈好友进行了大概分析

源码地址:https://github.com/TreasureGitHub/weixin_fenxi

执行代码,用微信扫一扫吧,少年!

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值