scrapy爬虫之使用ltemload进行数据清洗和双向的数据提取

最新推荐文章于 2023-11-14 10:19:53 发布

py风之老凌

最新推荐文章于 2023-11-14 10:19:53 发布

阅读量415

点赞数

分类专栏： python之scrapy框架爬虫文章标签： python

本文链接：https://blog.csdn.net/fengzhilaoling/article/details/107313690

版权

xpath引入正则

[re:match(text(), '处理正则')]
add_xpath('bookstock',"//*[re:match(text(),'stock \([0-9].')]/text()")

双向数据提取

横向：从一个索引页到另一个索引页(水平爬取)
纵向：从一个索引页到数据详细页并抽取item(垂直爬取)

代码

# -*- coding: utf-8 -*-
import scrapy
from scrapy.http import Request
from ..items import ToscrapebookItem
from scrapy.loader import ItemLoader

class BooksSpider(scrapy.Spider):
    name = 'books2'
    allowed_domains = ['books.toscrape.com']
    start_urls = ['http://books.toscrape.com/']

    def parse(self, response):
        book_urls = response

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

py风之老凌

关注关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
scrapy爬虫之使用ltemload进行数据清洗和双向的数据提取

双向数据提取横向：从一个索引页到另一个索引页(水平爬取)纵向：从一个索引页到数据详细页并抽取item(垂直爬取)代码# -*- coding: utf-8 -*-import scrapyfrom scrapy.http import Requestfrom ..items import ToscrapebookItemfrom scrapy.loader import ItemLoaderclass BooksSpider(scrapy.Spider): name = 'b
复制链接

扫一扫