今天趁摸鱼的时候玩了会知乎,突然看到一个非常有意思的话题
单身狗不知道还能干什么,所以特地把这些数据都抓下来,看看不除了第二杯半价还能干什么?
创建scrapy项目
前面教程概念讲的我嘴都麻了,估计大家看得也快烦死了,
直接进入主题吧!
项目创建完成结构如下:
需求分析
我们的目标很简单,抓取知乎该话题下的所有评论、作者、首页
评论点赞数和评论时间并将其保存做可视化分析
网页分析
F12点击查看网页源码,所有评论信息如下:都在一个名为data的数据文件中存储。
所以第一步我们需要先获取该文件从而获取我们所需信息
item定义
上面已经分析出我们的5个需求,我们在items.py中定义如下:
# 作者首页
photo = scrapy.Field()
# 作者名称
name = scrapy.Field()
# 评论时间
cmt_time = scrapy.Field()
# 评论点赞数
stars = scrapy.Field()
# 评论内容
comments = scrapy.Field()
发送请求