爬取豆瓣top250 -Scrapy之奇葩坑你爹:CrawlSpider 提取规则正则表达式转义处理

error: nothing to repeat at position 0

Scrapy之奇葩坑你爹:CrawlSpider 提取规则正则表达式转义处理

...其他代码省略

运行爬虫

Rule(LinkExtractor(allow=r'?start=\d+&filter='), callback='parse_item', follow=True),
  File "/usr/local/lib/python3.7/site-packages/scrapy/linkextractors/lxmlhtml.py", line 116, in __init__
    canonicalize=canonicalize, deny_extensions=deny_extensions)
  File "/usr/local/lib/python3.7/site-packages/scrapy/linkextractors/__init__.py", line 57, in __init__
    for x in arg_to_iter(allow)]
  File "/usr/local/lib/python3.7/site-packages/scrapy/linkextractors/__init__.py", line 57, in <listcomp>
    for x in arg_to_iter(allow)]

。。。

 File "/usr/local/Cellar/python/3.7.0/Frameworks/Python.framework/Versions/3.7/lib/python3.7/sre_parse.py", line 651, in _parse
    source.tell() - here + len(this))
re.error: nothing to repeat at position 0
 

错误是re 正则表达式的错误;

随后将表达式的?进行转义处理

rules = ( Rule(LinkExtractor(allow=r'\?start=\d+&filter='), callback='parse_item', follow=True), )

就解决了。。进入了callback 回调

 

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值