Python爬虫获取百度贴吧进行手游评测同时生成词云并进行情感分析——信息检索课设

本文介绍了使用Python爬虫爬取百度贴吧关于手游《明日之后》的帖子,生成词云进行游戏评测,并通过情感分析得出玩家情感趋势。文章详细阐述了Python环境搭建、Scrapy框架的使用、词云和情感分析的实现过程,展示了词云和情感折线图的效果,并指出了项目不足之处,如情感分析库的适用性问题。
摘要由CSDN通过智能技术生成

一、背景以及需求分析

最近网易研发出一款末日生存题材的手游——《明日之后》,我本人对这种类型的游戏很感兴趣,但是又担心网易第一次做这种类型的游戏没有经验,所以我准备使用Python爬虫,来爬取百度贴吧关于明日之后手游的帖子,来具体分析一下明日之后这款手游。具体思路就是使用Python爬虫获取百度贴吧有关明日之后的帖子的标题,然后把他们爬取到一个txt文本,之后再利用Python的matplotlib和jieba等第三方库来生成一个关键字词云,通过观察词云来初步评测一下明日之后,然后,我在利用Python的第三方库snownlp来进行情感分析,看一下贴吧中对明日之后的评价是正向的还是负向的。

二、前期的准备:Python的安装,第三方库的使用,一些常见问题

  • 磨刀不误砍材工,首先我需要把Python以及他的强大的第三方库安装完成,Python只需要去官方网站下载安装即可,Python通过导入一些第三方库就可以完成爬虫的任务,通过request和response请求和beautiful soup请求标签的内容,最后在加上一个文档下载就可以。
  • 但是我在本次课设使用的是scrapy框架,Scrapy 是一个高级的 python 爬虫框架,功能极其强大,拥有它就可以快速编写出一个爬虫项目,拥有它就可以搭建分布式架构。scrapy框架有很多依赖的库,分别是lxml、pyOpenSSL、Twisted、pywin32,共四个依赖库。
  • 接下来,还需要安装生成词云有关的库文件:wordcloud、matplotlib、pillow、numpy、jieba共5个库文件。
  • 最后,安装情感分析的第三方库:snownlp、pandas两个库文件

注意:
以上所提到到第三方库安装方式有两种,一种是在安装Python的文件夹下,使用cmd命令行工具,利用pip install 库文件,在线安装;另一种方式是去指定的库文件的官方网站下载安装包,然后把安装包放在Python的安装文件夹下,同样要打开cmd命令行,使用pip install 安装包名,进行安装。使用第一种安装方式的时候,有的时候会提示安装失败(失败的原因可能是版本不对,或者安装包在线找不到),这个时候需要使用第二种安装方式来安装,使用第二种安装方式的时候,需要注意下载的安装包要与Python的版本一致。

三、编码过程:模块设计,编码,单元测试以及整合测试

(一)从百度贴吧爬取相关内容,并存储在指定的txt文本中

Scrapy Engine(Scrapy 核心) 负责数据流在各个组件之间的流。Spiders(爬虫) 发出 Requests 请求,经由 Scrapy Engine(Scrapy 核心) 交给 Scheduler(调度器),Downloader(下载器)Scheduler(调度器) 获得 Requests 请求,然后根据 Requests 请求,从网络下载数据。Downloader(下载器) 的 Responses 响应再传递给 Spiders 进行分析。根据需求提取出 Items,交给 Item Pipeline 进行下载。所以我们需要设置四个Python文件,分别是settings.pypipelines.pyitems.py、以及爬虫文件。

  1. 在爬取贴吧之前,我们先要分析一下贴吧的页面结构,通过明日之后贴吧首页,进入贴吧首页,然后右击审查元素,可以查看页面结构,类似这样:
    贴吧
    左边被选中的标题,所对应的在右边的标签中。

  2. 在scrapy框架中,还有一个强大的功能,通过命令行的shell命令可以辅助分析页面结构,在scrapy下有两种方式访问网页指定元素的方式,一种是通过xpath的方式,另一种是通过css选择器。
    首先,在python文件夹下,用cmd命令行scrapy shell 明日之后的url:然后会进入可便捷状态,类似这样:在这里插入图片描述
    这个时候可以用response命令查看页面的全部信息,比如使用response.body可以查看页面body标签的元素:
    在这里插入图片描述
    在提取页面元素方面,xpath和css选择器各有优点,对于处理复杂页面元素,css选择器变现更好一点,所以我在这里选择使用css选择器。我通过审查元素看到在贴吧的题目是在class为threadlist_title.pull_left.j_th_tit的div标签下,所以在shell命令行输入:response.css("#thread_list div.threadlist_title.pull_left.j_th_tit a::text").extract()这个命令,可以查看当前页面所有帖子的标题:在这里插入图片描述

  3. 获取到了目标元素,就可以进行爬取工作了。
    在cmd命令行使用:scrapy startproject tieba来生成一个scrapy结构文件夹,目录是这个样子的:

tieba/
     scrapy.cfg
     tieba/
        __init__.py
        items.py
        middlewares.py
        pipelines.py
        settings.py
        spiders/
            __init__.py
  1. 之后,在进入tieba/tieba文件,使用命令行scrapy genspider tiebaspider 来生成主爬虫文件。这样就可以编写爬虫了。生成的爬虫文件会在tieba/tieba/spiders/文件夹下。
    打开tiebaspider.py文件,会有一个TiebaspiderSpider类,该类下有parse函数,用来写爬虫逻辑
    核心代码:
class TiebaspiderSpider(scrapy.Spider):
    name = 'tiebaspider'
    # allowed_domains = ['https://tieba.baidu.com/']
    # start_urls = ['https://tieba.baidu.com/f?kw=明日之后&ie=utf-8&pn=0']
    # start_urls =['http://169tp.com/']
    url = 'https://tieba.baidu.com/f?kw=明日之后&ie=utf-8&pn='
    offset 
  • 1
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

程序员世杰

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值