![](https://img-blog.csdnimg.cn/20201014180756724.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
scrapy
文章平均质量分 53
杉杉锅锅
这个作者很懒,什么都没留下…
展开
-
【无标题】
scrapy 使用技巧1、中间键等级相同的情况下,优先调用自定义中间件关于重定向:1、可以设置handle_httpstatus_list参数用以过滤需要重定向的响应码或直接设置不要重定向class RedirectMiddleware(BaseRedirectMiddleware): """ Handle redirection of requests based on response status and meta-refresh html tag. """原创 2021-12-10 16:54:49 · 1443 阅读 · 0 评论 -
scrapyd / gerapy 异常集合
先说版本Scrapy 1.5.0scrapyd 1.2.1gerapy 0.9.7不知道是啥原因部署起来遇到好几个问题,记录一下项目部署异常 str异常信息:然后尝试用scrapyd部署项目也抛了这个异常搜了一下还真有遇到相同问题的(https://www.pianshen.com/article/98501050648/)原因:在这个utils下 140行处 tmp = out.decode('utf-8').splitlines()改为 if isinst原创 2021-12-01 17:44:29 · 1081 阅读 · 0 评论 -
scrapy爬虫框架概览【基础使用】
Scrapy框架架构Engine - 引擎:处理数据流、触发事务。item - 项目:数据结构,类。Schedul - 调度器:处理请求队列。Download - 下载器:请求。Spiders - 蜘蛛:爬取逻辑和网页解析规则。item Pipeline - 项目管道:处理结果数据,清洗入库等。Downloader Midddlewares - 下载器中间件Spider Midddlewares - 蜘蛛中间件数据流命令行调用子项目Engine找到对应的Spider,并获取原创 2021-12-14 10:31:51 · 540 阅读 · 0 评论 -
scrapy初练
创建项目scrapy startproject {name}创建一个子目录scrapyname 并包含一些基本文件item 定义爬取对象,字段middlewares 包含cookies 代理ip等的设置的中间件piplines 返回item类型对象后再piplines对item数据处理setting 日志级别,是否遵守robots协议等一些参数的设置生成了一个name目录再name目录下创建一个spiderscrapy genspider {name} {domain}...原创 2020-12-17 13:08:40 · 74 阅读 · 0 评论