scrapy实现二级页面爬取（以小说为例）

最新推荐文章于 2024-02-18 19:29:51 发布

童话里做英雄529

最新推荐文章于 2024-02-18 19:29:51 发布

阅读量4.1k

点赞数 6

分类专栏：爬虫文章标签： scrapy

本文链接：https://blog.csdn.net/qq_39290225/article/details/97028468

版权

爬虫专栏收录该内容

4 篇文章 0 订阅

订阅专栏

1.scrapy图解 在这里插入图片描述
2.创建项目

scrapy startproject 项目名

创建后的目录
在这里插入图片描述
3.编写字段
在items.py中编写需要的字段，这里就写小说的章节和内容

class XiaoshuoItem(scrapy.Item):
    # define the fields for your item here like:
    # name = scrapy.Field()


    #章节
    page = scrapy.Field()
    #内容
    content = scrapy.Field()

4.创建爬虫文件

scrapy genspider 文件名  域名

创建成功之后，在spiders中将会出现一个文件
在这里插入图片描述
文件里面是这样的

注意：parse方法不能修改名字，不然会报错，用来实现爬取网页
下面是案例：
由于小说每章的内容在下一个页面，我们需要进入下一个页面爬取数据需要重新再定义一个方法。同时，parse方法需要将下一个页面的路径和数据等传递给第二个方法。

class WangyouSpider(scrapy.Spider):
    name = 'wangyou'
    allowed_domains = ['www.800txt.net']
    start_urls = ['https://www.800txt.net/book_112506/']

    def parse(self, response):
		#节点
        node_list = response.xpath("//dl/dd")
        for obj in node_list:
        	#章节
            page = obj.xpath('./a/text()')[0].extract()
            #二级页面路径
            page_href = obj.xpath('./a/@href')[0].extract()
            page_href = self.start_urls[0]+page_href
			#将page赋值给item中，用来之后的抛出
            item = XiaoshuoItem()
            item['page'] = page

            yield scrapy.Request(url=page_href,callback=self.sec_handler,meta={'item':item})

scrapy.Request的常用参数：
url：下一个页面的路径
callback：指定该请求返回的Response，由那个函数来处理。
meta：比较常用，在不同的请求之间传递数据使用的。字典dict型

第二个方法：用来爬取小说的内容

    def sec_handler(self,response):
        item = response.meta['item']
		#获取内容
        content_list = response.xpath('//div[@id="content"]/text()')
        #处理，把字符串提取出来，并去掉空格
        conecnt = ''
        for data in content_list:
            conecnt+=data.extract().replace(' ','')
		#赋值并抛出item
        item['content'] = conecnt
        return item

5.启动爬虫

scrapy crawl 爬虫名 -o 文件名.格式

格式有以下几种：
在这里插入图片描述
到此为止，就成功了！

童话里做英雄529

关注

6
点赞
踩
28

收藏

觉得还不错? 一键收藏
0
评论
scrapy实现二级页面爬取（以小说为例）

1.scrapy图解2.创建项目scrapy startproject 项目名创建后的目录3.编写字段在items.py中编写需要的字段，这里就写小说的章节和内容class XiaoshuoItem(scrapy.Item): # define the fields for your item here like: # name = scrapy.Field()...
复制链接

扫一扫