python爬取QQ空间说说并生成词云

最新推荐文章于 2024-06-25 17:59:30 发布

macair123

最新推荐文章于 2024-06-25 17:59:30 发布

阅读量2.2k

点赞数 1

分类专栏：人工智能文章标签： github python QQ空间

本文链接：https://blog.csdn.net/macair123/article/details/79580437

版权

人工智能专栏收录该内容

48 篇文章 4 订阅

订阅专栏

以下是生成的词云图 python爬取QQ空间说说并生成词云

我的环境：Mac,Anaconda,Python2.7,以及各种用到的Python库

先来说下Anaconda

Anaconda 是一个可用于科学计算的 Python 发行版，支持 Linux、Mac、Windows系统，内置了常用的科学计算包。它解决了官方 Python 的两大痛点。

第一：提供了包管理功能，Windows 平台安装第三方包经常失败的场景得以解决，
第二：提供环境管理的功能，功能类似 Virtualenv，解决了多版本Python并存、切换的问题。

conda 是 Anaconda 下用于包管理和环境管理的工具，功能上类似 pip 和 vitualenv 的组合。安装成功后 conda 会默认加入到环境变量中，因此可直接在命令行窗口运行命令 conda

conda 的环境管理与 virtualenv 是基本上是类似的操作。

# 查看帮助conda -h 
# 基于python3.6版本创建一个名字为python36的环境conda create --name python36 python=3.6 
# 激活此环境source activate python36 # linux/mac# 再来检查python版本，显示是 3.6python -V  # 退出当前环境source deactivate python36 
# 删除该环境conda remove -n python36 --all# 查看所以安装的环境conda info -e

conda 的包管理功能可 pip 是一样的，当然你选择 pip 来安装包也是没问题的。

# 安装 matplotlib conda install matplotlib# 查看已安装的包conda list 
# 包更新conda update matplotlib# 删除包conda remove matplotlib

在 conda 中 anything is a package。conda 本身可以看作是一个包，python 环境可以看作是一个包，anaconda 也可以看作是一个包，因此除了普通的第三方包支持更新之外，这3个包也支持。比如： Anaconda 的镜像地址默认在国外，用 conda 安装包的时候会很慢，目前可用的国内镜像源地址有清华大学的。修改 ~/.condarc (Linux/Mac)

channels:
 - https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/free/
 - defaults
show_channel_urls: true

如果使用conda安装包的时候还是很慢，那么可以考虑使用pip来安装，同样把 pip 的镜像源地址也改成国内的，豆瓣源速度比较快。修改 ~/.pip/pip.conf (Linux/Mac)

[global]trusted-host =  pypi.douban.comindex-url = http://pypi.douban.com/simple

环境搭建好之后就可以开始愉快地玩数据分析了。

爬取动态内容

因为动态页面的内容是动态加载出来的，所以我们需要不断下滑，加载页面
切换到当前内容的frame中,也有可能不是frame,这里需要查看具体情况
获取页面源数据，然后放入xpath中，然后读取

  # 下拉滚动条，使浏览器加载出动态加载的内容，
  # 我这里是从1开始到6结束 分5 次加载完每页数据
        for i in range(1,6):
            height = 20000*i#每次滑动20000像素
            strWord = "window.scrollBy(0,"+str(height)+")"
            driver.execute_script(strWord)
            time.sleep(4)        # 很多时候网页由多个<frame>或<iframe>组成，webdriver默认定位的是最外层的frame，
        # 所以这里需要选中一下说说所在的frame，否则找不到下面需要的网页元素
        driver.switch_to.frame("app_canvas_frame")
        selector = etree.HTML(driver.page_source)
        divs = selector.xpath('//*[@id="msgList"]/li/div[3]')

生成词云

生成词云需要用到的库：

wordcloud, 生成词云
matplotlib, 生成词云图片
jieba,显示中文。

#coding:utf-8from wordcloud import WordCloudimport matplotlib.pyplot as pltimport jieba#生成词云def create_word_cloud(filename):
    text= open("{}.txt".format(filename)).read()    # 结巴分词
    wordlist = jieba.cut(text, cut_all=True)
    wl = " ".join(wordlist)    # 设置词云
    wc = WordCloud(        # 设置背景颜色
       background_color="white",         # 设置最大显示的词云数
       max_words=2000,         # 这种字体都在电脑字体中，一般路径
       font_path='/System/Library/Fonts/PingFang.ttc',
       height= 1200,
       width= 1600,        # 设置字体最大值
       max_font_size=100,     # 设置有多少种随机生成状态，即有多少种配色方案
       random_state=30,
    )

    myword = wc.generate(wl)  # 生成词云
    # 展示词云图
    plt.imshow(myword)
    plt.axis("off")
    plt.show()
    wc.to_file('py_book.png')  # 把词云保存下if __name__ == '__main__':
    create_word_cloud('qq_word')