爬取豆瓣top250 -Scrapy之奇葩坑你爹:CrawlSpider 提取规则正则表达式转义处理

最新推荐文章于 2022-01-08 15:05:58 发布

码小匠---千少

最新推荐文章于 2022-01-08 15:05:58 发布

阅读量414

点赞数

分类专栏： 22_爬虫

原文链接：https://blog.csdn.net/idlehand/article/details/81208470

版权

22_爬虫专栏收录该内容

14 篇文章 0 订阅

订阅专栏

error: nothing to repeat at position 0

原

Scrapy之奇葩坑你爹:CrawlSpider 提取规则正则表达式转义处理

2018年07月25日 19:14:02 MacanLiu 阅读数 628 更多

分类专栏： Python

本文链接： https://blog.csdn.net/idlehand/article/details/81208470

rules = (
    Rule(LinkExtractor(allow=r'?start=\d+&filter='), callback='parse_item', follow=True),
)

...其他代码省略

运行爬虫

Rule(LinkExtractor(allow=r'?start=\d+&filter='), callback='parse_item', follow=True),
File "/usr/local/lib/python3.7/site-packages/scrapy/linkextractors/lxmlhtml.py", line 116, in __init__
canonicalize=canonicalize, deny_extensions=deny_extensions)
File "/usr/local/lib/python3.7/site-packages/scrapy/linkextractors/__init__.py", line 57, in __init__
for x in arg_to_iter(allow)]
File "/usr/local/lib/python3.7/site-packages/scrapy/linkextractors/__init__.py", line 57, in <listcomp>
for x in arg_to_iter(allow)]

。。。

File "/usr/local/Cellar/python/3.7.0/Frameworks/Python.framework/Versions/3.7/lib/python3.7/sre_parse.py", line 651, in _parse
source.tell() - here + len(this))
re.error: nothing to repeat at position 0

错误是re 正则表达式的错误；

随后将表达式的？进行转义处理

rules = ( Rule(LinkExtractor(allow=r'\?start=\d+&filter='), callback='parse_item', follow=True), )

就解决了。。进入了callback 回调

码小匠---千少

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
爬取豆瓣top250 -Scrapy之奇葩坑你爹:CrawlSpider 提取规则正则表达式转义处理

error: nothing to repeat at position 0 原 Scrapy之奇葩坑你爹:CrawlSpider 提取规则正则表达式转义处理 ...
复制链接

扫一扫