scrapy爬虫注意事项

本文详细介绍了Scrapy爬虫在实际操作中可能遇到的问题及其解决方案,包括item数据丢失、字段传递错误、多解析需求、XPath中contains的使用、非标签内文本提取、倒数标签提取、合并单元格的表格信息抽取以及模拟登陆的方法。通过实例讲解了如何有效应对这些挑战。
摘要由CSDN通过智能技术生成

scrapy爬虫注意事项

一、item数据只有最后一条

这种情况一般存在于对标签进行遍历时,将item对象放置在了for循环的外部。解决方式:将item放置在for循环里面。

def parse(self,response):
    #item = ExampleItem()  # 存在for循环时,item不要放置在这里
    for result in result_list:
        item = ExampleItem()  # 放置在for循环里面
        item['name'] = result.css('div a::text').extract_first()
        item['age'] = result.css('div #id').extract_first()
        yield item

二、item字段传递后错误,混乱

有时候会遇到这样的情况,item传递几次之后,发现不同页面的数据被混乱的组合在了一起。这种情况一般存在于item的传递过程中,没有使用深拷贝。解决方式:使用深拷贝来传递item。

import copy

def parse_base(self,response):
    base_url = 'https://www.base_url.com'
    for result in result_list:
        item = ExampleItem()
        item['name'] = result.css('div a::text').extract_first()
        item['age'] = result.css('div #id').extract_first()
        yield scrapy.Request(url=base_url,meta=copy.deepcopy({
   'item':item}),callback=self.parse_detail) # 使用深拷贝将item存在meta中

def parse_detail(self,response):
    item = response.meta['item'] # 取出之前传递的item
    """
    do some thing
    """
    yield item

三、对一个页面要进行两种或多种不同的解析

这种情况一般出现在对同一页面有不同的解析要求时,但默认情况下只能得到第一个parse的结果。产生这个结果的原因是scrapy默认对拥有相同的url,相同的body以及相同的请求方法视为一个请求。解决方式:设置参数dont_filter=‘True’。

def 
  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值