
Scrapy
spider
是大嘟嘟呀
人生如梦,易蹉跎
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
scrapy -- 暂停爬虫、恢复爬虫
自己笔记本电脑在公司跑爬虫,然后下班了,我把爬虫先暂停,然后把电脑带回家。回家后我再接着跑爬虫,它不香吗原创 2022-03-17 17:55:30 · 5319 阅读 · 0 评论 -
Scrapy - 在下载器中间件中设置随机User-Agent
项目目录在middlewares.py中import randomclass RandomUserAgent: def get_ua(self): first_num = random.randint(55, 62) third_num = random.randint(0, 3200) fourth_num = random.randint(0, 150) os_type = [ '(Window.原创 2021-06-19 14:37:25 · 360190 阅读 · 0 评论 -
Scrapy -- cookie详解
在setting文件中COOKIES_ENABLED = FalseFalse– 使用的是setting文件里,DEFAULT_REQUEST_HEADERS中的cookie值COOKIES_ENABLED = TrueTrue– 就可以在爬虫文件中使用自定义的cookie,传入的cookie必须是字典类型# COOKIES_ENABLED = TrueCOOKIES_ENABLED被注释– 则是不使用cookie...原创 2021-04-25 15:16:59 · 2183 阅读 · 0 评论 -
Scrapy -- 在下载器中间件中处理异常
代码from twisted.internet.error import TCPTimedOutError, TimeoutErrorclass ProcessException: def process_exception(self, request, exception, spider): if isinstance(exception, TCPTimedOutError): print(f"出异常了(tcp超时) --> {exception原创 2021-04-23 11:44:22 · 2189 阅读 · 0 评论 -
Scrapy -- 信号的使用
代码在爬虫文件中@classmethod def from_crawler(cls, crawler, *args, **kwargs): spider = super(T1Spider, cls).from_crawler(crawler, *args, **kwargs) spider.id = f"t1-{datetime.datetime.now()}" crawler.signals.connect(spider.item_scraped原创 2021-04-26 20:19:40 · 2072 阅读 · 0 评论 -
Scrapy -- 解决302重定向
代码yield Request(url, meta={ 'dont_redirect': True, 'handle_httpstatus_list': [302] }, callback=self.parse)原创 2021-04-23 12:00:51 · 2222 阅读 · 0 评论