scrapy
RedPintings
记录工作,共同成长
展开
-
twisted.web._newclient.RequestGenerationFailed
这个问题困扰了我好几分钟的时间,我也找不到什么原因,也搜不到什么结果!我使用一台老得ubuntu 服务器运行一个scrapy 项目的时候出现这种问题那么这时候只有两种可能自己代码写得有问题 软件版本的问题,但是具体不知道是那个包的版本不行Traceback (most recent call last): File "/usr/local/lib/python3.5/dist-packages/scrapy/core/downloader/middleware.py", line ..原创 2021-01-18 17:02:03 · 739 阅读 · 0 评论 -
ImportError: cannot import name 'log' from 'scrapy'
[root@localhost ~]# python3Python 3.8.2 (default, Apr 20 2020, 10:10:11) [GCC 4.8.5 20150623 (Red Hat 4.8.5-39)] on linuxType "help", "copyright", "credits" or "license" for more information.>>> import scrapy>>> >>> from s.原创 2020-05-12 11:29:23 · 3581 阅读 · 1 评论 -
scrapy Downloader Middlewares 中间件
class UserAgentMiddleware(object): """ Change User-Agent """ def process_request(self, request, spider): agent = random.choice(agents) request.headers["User-Agent"] = agent...原创 2018-11-05 10:26:11 · 378 阅读 · 0 评论 -
Scrapy 中 log 功能
Scrapy提供了log功能,可以通过 logging 模块使用可以在settings 中添加使用LOG_FILE = "mySpider.log"LOG_LEVEL = "INFO"LOG_FILE 储存log文件路径LOG_LEVEL 日志等级Scrapy提供5层logging级别:CRITICAL - 严重错误(critical) ERROR - 一般错误...转载 2018-08-22 17:33:14 · 1067 阅读 · 0 评论 -
scrapyd
Scrapy爬虫项目的远程部署和监控:1. 安装scrapyd 服务 和 scrapyd 客户端# 安装服务sudo pip install scrapyd# 安装客户端sudo pip install scrapyd-clientscrapyd 安装在 /usr/local/lib/python2.7/site-packages/scrapyd配置文件: default_sc...原创 2019-01-17 18:44:30 · 451 阅读 · 0 评论 -
xpath回顾
转载 2019-03-25 11:09:46 · 173 阅读 · 0 评论 -
scrapy to_bytes must receive a unicode, str or bytes object, got int
这个 formdata 表单参数要是str 才可以,可以参考scrapy 源代码 form.py form_data = { "navigateType": "910", "firstCategoryId": "910", "secondCategoryId": "910",...原创 2019-03-29 16:30:29 · 2085 阅读 · 0 评论 -
爬虫集群管理 Scrapyd + Gerapy Demo
scrpyd 安装使用scrapyd 官方文档GitHub:https://github.com/djm/python-scrapyd-apiScrapyd,GitHub:https://github.com/scrapy/scrapydscrapyd 是由scrapy 官方提供的爬虫管理工具,可以非常方便地上传、控制爬虫并且查看运行日志。它提供一个JSON web service...原创 2019-05-09 10:28:14 · 933 阅读 · 0 评论 -
scrapy SpiderMiddleware DownloaderMiddleware
Spider中间件(Middleware)中间件是介入到Scrapy的spider处理机制的钩子框架,您可以添加代码来处理发送给 Spiders的response及spider产生的item和request。官方文档Scrapy各个组件执行顺序了解各个组件执行顺序后,首先 来看官方文档中的解释:process_spider_input(response, spider)...原创 2019-05-07 17:53:37 · 1165 阅读 · 0 评论