Python爬虫获取百度贴吧进行手游评测同时生成词云并进行情感分析——信息检索课设

本文链接：https://blog.csdn.net/qq_33945246/article/details/88850512

本文介绍了使用Python爬虫爬取百度贴吧关于手游《明日之后》的帖子，生成词云进行游戏评测，并通过情感分析得出玩家情感趋势。文章详细阐述了Python环境搭建、Scrapy框架的使用、词云和情感分析的实现过程，展示了词云和情感折线图的效果，并指出了项目不足之处，如情感分析库的适用性问题。

摘要由CSDN通过智能技术生成

文章目录

一、背景以及需求分析

最近网易研发出一款末日生存题材的手游——《明日之后》，我本人对这种类型的游戏很感兴趣，但是又担心网易第一次做这种类型的游戏没有经验，所以我准备使用Python爬虫，来爬取百度贴吧关于明日之后手游的帖子，来具体分析一下明日之后这款手游。具体思路就是使用Python爬虫获取百度贴吧有关明日之后的帖子的标题，然后把他们爬取到一个txt文本，之后再利用Python的matplotlib和jieba等第三方库来生成一个关键字词云，通过观察词云来初步评测一下明日之后，然后，我在利用Python的第三方库snownlp来进行情感分析，看一下贴吧中对明日之后的评价是正向的还是负向的。

二、前期的准备：Python的安装，第三方库的使用，一些常见问题

磨刀不误砍材工，首先我需要把Python以及他的强大的第三方库安装完成，Python只需要去官方网站下载安装即可，Python通过导入一些第三方库就可以完成爬虫的任务，通过request和response请求和beautiful soup请求标签的内容，最后在加上一个文档下载就可以。
但是我在本次课设使用的是scrapy框架，Scrapy 是一个高级的 python 爬虫框架，功能极其强大，拥有它就可以快速编写出一个爬虫项目，拥有它就可以搭建分布式架构。scrapy框架有很多依赖的库，分别是lxml、pyOpenSSL、Twisted、pywin32，共四个依赖库。
接下来，还需要安装生成词云有关的库文件：wordcloud、matplotlib、pillow、numpy、jieba共5个库文件。
最后，安装情感分析的第三方库：snownlp、pandas两个库文件

注意：
以上所提到到第三方库安装方式有两种，一种是在安装Python的文件夹下，使用cmd命令行工具，利用pip install 库文件,在线安装；另一种方式是去指定的库文件的官方网站下载安装包，然后把安装包放在Python的安装文件夹下，同样要打开cmd命令行，使用pip install 安装包名，进行安装。使用第一种安装方式的时候，有的时候会提示安装失败（失败的原因可能是版本不对，或者安装包在线找不到），这个时候需要使用第二种安装方式来安装，使用第二种安装方式的时候，需要注意下载的安装包要与Python的版本一致。

三、编码过程：模块设计，编码，单元测试以及整合测试

（一）从百度贴吧爬取相关内容，并存储在指定的txt文本中

Scrapy Engine(Scrapy 核心) 负责数据流在各个组件之间的流。Spiders(爬虫) 发出 Requests 请求，经由 Scrapy Engine(Scrapy 核心) 交给 Scheduler(调度器)，Downloader(下载器)Scheduler(调度器) 获得 Requests 请求，然后根据 Requests 请求，从网络下载数据。Downloader(下载器) 的 Responses 响应再传递给 Spiders 进行分析。根据需求提取出 Items，交给 Item Pipeline 进行下载。所以我们需要设置四个Python文件，分别是settings.py、pipelines.py、items.py、以及爬虫文件。

在爬取贴吧之前，我们先要分析一下贴吧的页面结构，通过明日之后贴吧首页，进入贴吧首页，然后右击审查元素，可以查看页面结构，类似这样：

左边被选中的标题，所对应的在右边的标签中。
在scrapy框架中，还有一个强大的功能，通过命令行的shell命令可以辅助分析页面结构，在scrapy下有两种方式访问网页指定元素的方式，一种是通过xpath的方式，另一种是通过css选择器。
首先，在python文件夹下，用cmd命令行scrapy shell 明日之后的url：然后会进入可便捷状态，类似这样：
这个时候可以用response命令查看页面的全部信息，比如使用response.body可以查看页面body标签的元素：

在提取页面元素方面，xpath和css选择器各有优点，对于处理复杂页面元素，css选择器变现更好一点，所以我在这里选择使用css选择器。我通过审查元素看到在贴吧的题目是在class为threadlist_title.pull_left.j_th_tit的div标签下，所以在shell命令行输入：response.css("#thread_list div.threadlist_title.pull_left.j_th_tit a::text").extract()这个命令，可以查看当前页面所有帖子的标题：
获取到了目标元素，就可以进行爬取工作了。
在cmd命令行使用：scrapy startproject tieba来生成一个scrapy结构文件夹，目录是这个样子的：

tieba/
     scrapy.cfg
     tieba/
        __init__.py
        items.py
        middlewares.py
        pipelines.py
        settings.py
        spiders/
            __init__.py

之后，在进入tieba/tieba文件，使用命令行scrapy genspider tiebaspider 来生成主爬虫文件。这样就可以编写爬虫了。生成的爬虫文件会在tieba/tieba/spiders/文件夹下。
打开tiebaspider.py文件，会有一个TiebaspiderSpider类，该类下有parse函数，用来写爬虫逻辑
核心代码：

class TiebaspiderSpider(scrapy.Spider):
    name = 'tiebaspider'
    # allowed_domains = ['https://tieba.baidu.com/']
    # start_urls = ['https://tieba.baidu.com/f?kw=明日之后&ie=utf-8&pn=0']
    # start_urls =['http://169tp.com/']
    url = 'https://tieba.baidu.com/f?kw=明日之后&ie=utf-8&pn='
    offset