Scrapy Python爬虫实战：抓取知乎问题下所有回答！

最新推荐文章于 2024-08-10 17:00:15 发布

途途途途

最新推荐文章于 2024-08-10 17:00:15 发布

阅读量1.6k

点赞数 7

分类专栏： python爬虫实战教程文章标签： python 爬虫数据库

本文链接：https://blog.csdn.net/qq_36807888/article/details/120521173

版权

本文介绍了使用Scrapy Python爬虫抓取知乎话题下的所有回答，包括评论、作者、点赞数和时间，并进行数据保存、可视化分析。通过网页分析、item定义、发送请求、多页数据获取，最终将数据导出到Excel并制作词云图，进行情感分析。

摘要由CSDN通过智能技术生成

今天趁摸鱼的时候玩了会知乎，突然看到一个非常有意思的话题

单身狗不知道还能干什么，所以特地把这些数据都抓下来，看看不除了第二杯半价还能干什么？

创建scrapy项目

前面教程概念讲的我嘴都麻了，估计大家看得也快烦死了，

直接进入主题吧!

项目创建完成结构如下：

需求分析

我们的目标很简单，抓取知乎该话题下的所有评论、作者、首页

评论点赞数和评论时间并将其保存做可视化分析

网页分析

F12点击查看网页源码，所有评论信息如下：都在一个名为data的数据文件中存储。

所以第一步我们需要先获取该文件从而获取我们所需信息

item定义

上面已经分析出我们的5个需求，我们在items.py中定义如下：

   # 作者首页
    photo = scrapy.Field()

    # 作者名称
    name = scrapy.Field()

    # 评论时间
    cmt_time = scrapy.Field()

    # 评论点赞数
    stars = scrapy.Field()

    # 评论内容
    comments = scrapy.Field()

发送请求