基于Scrapy构架的爬虫之问题一：我的第一个代码

最新推荐文章于 2024-09-25 15:24:27 发布

举几个栗子吧

最新推荐文章于 2024-09-25 15:24:27 发布

阅读量660

点赞数

文章标签：爬虫 python 数据挖掘

本文链接：https://blog.csdn.net/m0_56161529/article/details/121213789

版权

“难过难过，难着难着就过去了”

作为一个爬虫初学者来说，这是我第一个能看懂，并且困扰我三四天的代码。

我的爬虫时基于Scrapy构架的，爬取24小时热销榜小说的代码，需要爬取到的信息包括小说名称、作者、类型、形式（连载或者完结）并将其保存到CSV文件中，因为这个爬虫简单，只涉及到了HotSalesSpider类，其所有功能都在其上实现；除此之外还用到了parse()函数，下面进行依次介绍：

（1）HotSalesSpider类：其基类为Spider,类中定义了两个属性，name和start_urls，name为爬虫名；start_urls用来存储目标网址列表。

（2）parse()函数是爬虫方法的核心，需要完成两个主要任务：

提取页面的数据
提取页面的链接，并对页面链接产生下载请求

首先在cmd中建立项目，具体命令为：

>d

>cd d:\Python (注意：Python为项目所在的文件夹)

>scrapy startproject Python （注意第一次使用cmd创建爬虫项目时，项目的名称要与放置项目文件夹的名称相同，必须为英文，下一次就可以任意了。）

项目创建完成后会在所在文件夹产生相应的配置文件，如下图：

之后在Spider文件下创建新的.py代码，具体代码如下：

from scrapy import Request
from scrapy.spiders import Spider
class HotSalesSpider(Spider): #类HotSalesSpider，基于Spider
#定义爬虫名称
name = 'hot'
#起始的URL列表
#qidian_headers = {"User-Agent":Mozilla/"
## "5.0 (Windows NT 10.0;"
# "WOW64) AppleWebKit/"
# "537.36 (KHTML, like Gecko) Chrome/"
# "91.0.4472.164 Safari/"
# "537.36"}
#def start_requests(self):
# ur1 = "https://www.qidian.com/rank/hotsales?style=1"
# yield Request(ur1,headers=self.qidian_headers,callback=self.qidian_parse)
start_urls = ["https://www.qidian.com/rank/hotsales?style=1"]
#解析函数
def parse(self, response): #定义方法parse()解析函数，提取页面数据、链接并对链接页面的下载请求
#使用xpath定位到小说内容的div元素
list_selector = response.xpath("//div[@class='book-mid-info']")
#list_selecter是一个选择器对象列表，存储有多个选择器对象，一个选择器对应一个div元素
#依次读取每部小说的元素，从中获取名称、作者、类型和形式
for one_selector in list_selector:
#获取小说名称
name = one_selector.xpath("h4/a/text()").extract()[0]
#获取作者 ,extract()[0]为提取提取xpath（）或css()返回的SelectorList对象中文本数据，返回unicode字符串列表
author = one_selector.xpath("p[1]/a[1]/text()").extract()[0]
#获取类型
type = one_selector.xpath("p[1]/a[2]/text()").extract()[0]
#获取形式（连载/完本）
form = one_selector.xpath("p[1]/span/text()").extract()[0]
#将爬取到的一部小说保存到字典中
hot_dict = {"name":name, #小说名称
"author":author, #作者
"type":type, #类型
"form":form} #形式
# print(hot_dict)
#使用yield返回字典
yield hot_dict