1. 实验内容
使用Pycharm写代码,采用scrapy爬取红袖小说网前十页的作品信息。
2. 试验环境
操作系统:window10 家庭版64位操作系统
Python版本:python 3.7.3
3. 实验
3.1 观察网页结构,制定爬取逻辑
使用firefox浏览器打开红袖小说网,使用开发者工具(Fn+F12)观察网页结构,获取相应元素的xpath语句。
由于我们需要在每本小说的详情页中进行文本的提取,所以这里需要观察每一页的网址构成找出规律。
网址链接分为三部分:主页+gender+catID
在此处我选择前十页的作品进行信息的爬取。
随便挑选一本小说的详情页进行网页结构解析,此处为小说名称、作者、小说类别的元素所在位置。
小说名称、作者、小说类别
此为这本小说的总字数、收藏量、点击量和简介的元素所在位置。
说的总字数、收藏量、点击量和简介
这是小说封面图片的url
图片的url