scrapy
文章平均质量分 69
Urila
这个作者很懒,什么都没留下…
展开
-
Python_SyntaxError: Missing parentheses in call to 'print'. Did you mean print(response .body)
描述:使用scrapy中执行命令时候出现以下错误。SyntaxError: Missing parentheses in call to 'print'. Did you mean print(response .body)解释:SytRealError:调用“打印”时缺少括号。你是指打印response .body?因为我的python版本是3.6,而在python3.6中使...原创 2018-12-07 21:50:11 · 3797 阅读 · 0 评论 -
scrapy_Atwisted.web.error.SchemeNotSupported: Unsupported scheme: b''错误及解决
问题描述:在middleware中使用ip代理的时候,报错如下2019-01-05 21:16:15 [scrapy.core.scraper] ERROR: Error downloading <GET http://httpbin.org/ip>Traceback (most recent call last): File "e:\anaconda3\lib\sit...原创 2019-01-05 21:26:33 · 3342 阅读 · 0 评论 -
scrapy_由于连接方在一段时间后没有正确答复或连接的主机没有反应,连接尝试失败。错误及解决
问题描述:在使用scrapy的middleware使用ip代理的时候,也给代理添加了"https://"或者"http://", 但还是报错了(之前还是好好的)报错如下:2019-01-05 21:46:44 [scrapy.downloadermiddlewares.retry] DEBUG: Retrying <GET http://httpbin.org/ip> (...原创 2019-01-05 22:07:11 · 25471 阅读 · 2 评论 -
scrapy_crawlspider_TypeError: dict expected at most 1 arguments, got 6
问题描述:在使用scrapy的CrawlSpider框架进行网络爬虫的时候,spider文件中已定义好了items文件的类的实例化对象来进行返回,但是在执行该爬虫的时候报错,如下:2019-01-11 23:23:50 [scrapy.core.scraper] ERROR: Spider error processing <GET https://www.jianshu.com/...原创 2019-01-11 23:47:12 · 4888 阅读 · 2 评论 -
scrapy_pymysql.err.IntegrityError: (1062, "Duplicate entry '1' for key 'PRIMARY'")
问题描述:python:3.6ubantu:5.4.0-6ubuntu1~16.04.4 在使用scrapy为框架,将采集到的数据使用pymysql保存到虚拟机中的时候,数据采集没有问题,但是在插入的时候出现了问题,报错如下:Traceback (most recent call last): File "e:\anaconda3\lib\site-packages\twi...原创 2019-01-12 15:28:15 · 10902 阅读 · 2 评论 -
scrapy_File "src/lxml/etree.pyx", line 1589, in lxml.etree._Element.xpath (src\lxml\etree.c:61238)
问题描述:在使用scrapy框架进行数据采集的时候,是能进行数据抓取的,但是相隔一段时间后,在使用xpath后报错,如下:Traceback (most recent call last): File "e:\anaconda3\lib\site-packages\parsel\selector.py", line 238, in xpath **kwargs) File...原创 2019-01-18 08:59:33 · 6170 阅读 · 2 评论 -
scrapy_TypeError: Cannot convert unicode body - HtmlResponse has no encoding
问题描述:在使用middleware进的时候,计划是在scrapy发送请求的时候对其进行拦截,然后自己使用HtmlResponse伪造一个response响应进行返回,传给scrapy调度器。但是,在使用HtmlResponse实例化对象的是时候报错,如下:Traceback (most recent call last): File "e:\anaconda3\lib\site-...原创 2019-01-14 16:15:38 · 1064 阅读 · 0 评论 -
scrapy_在linux环境下部署scrapy分布式
分布式爬虫linux部署环境步骤1. (以下为linux环境下进行)Scrapy的安装有多种方式,它支持Python2.7版本及以上或Python3.3版本及以上,scrapy的依赖库比较多执行如下命令安装依赖库:sudo apt-get install build-essential python3-dev libxml2-dev python3-pip libxslt1-dev z...原创 2019-01-20 21:57:15 · 547 阅读 · 0 评论 -
scrapy_分布式_ERROR: Caught exception reading instance data_Unable to read instance data, giving up
问题描述:将已经写好的scrapy分布式项目部署到linux环境中后执行spider.py文件报错,如下2019-01-20 23:05:08 [boto] ERROR: Caught exception reading instance dataTraceback (most recent call last): File "/usr/lib/python2.7/dist-pac...原创 2019-01-20 23:47:54 · 537 阅读 · 0 评论 -
scrapy_写入csv文件_'gbk' codec can't encode character '\xa0' in position 148: illegal multibyte sequence
问题描述:使用scrapy进行爬虫的时候,将文本写入到csv文件时候报错原因分析:‘\xa0’ 在Unicode编码中是空格 但使用gbk进行编码的时候就或报错解决方案string.replace(u'\xa0', u' ')参考:https://blog.csdn.net/jianhong1990/article/details/8061...原创 2019-03-29 20:09:12 · 550 阅读 · 2 评论 -
scrapy_AttributeError: type object 'ImagesPipeline' has no attribute 'startswith'错误及解决
问题描述:在使用scrapy进行爬虫的时候,启用前没有问题,启用管道后就出现了问题。报错如下:AttributeError: type object 'ImagesPipeline' has no attribute 'startswith'无法在python中的SCRAPY中创建对'str'对象的弱引用spider文件代码如下:# -*- coding: utf-8 ...原创 2019-01-05 09:32:14 · 2258 阅读 · 0 评论 -
python_scrapy_TypeError: 'LuboavSpider' object is not iterable问题及解决
问题描述:在使用scrapy进行网络爬虫的时候,在pipelines处理结果,并保存到db中的时候出现了TypeError: 'LuboavSpider' object is not iterable错误# -*- coding: utf-8 -*-# Define your item pipelines here## Don't forget to add your pipelin...原创 2018-12-23 22:07:55 · 1720 阅读 · 0 评论 -
scrapy_TypeError: Object of type 'QiubaiItem' is not JSON serializable
问题描述:使用scrapy对糗事百科进行爬虫的时,在spider文件中返回在items文件的实例化对象,然后在管道文件进行磁盘持久化的时候,想将从spider文件传过来的数据通过json转换成字符串然后在写入文件,结果报错Traceback (most recent call last): File "e:\anaconda3\lib\site-packages\twisted\in...原创 2018-12-27 23:48:33 · 580 阅读 · 0 评论 -
Python_Scrapy安装问题及解决_使用pip命令安装后在pycharm仍不能导入
今天使用pip命令安装完scrapy后,怀着激动的心情开始scrapy之旅。下图为安装成功:但是当打开pycharm后导入scrapy模块的时候出现了问题,显示scrapy不存在。no module named scrapy已经安装好了,已经创建一个项目了随后我在pycharm进行安装的时候报错如下: 随后我把whl文件放到我的工作路径下重新进行安装:再...原创 2018-12-08 00:49:56 · 6244 阅读 · 1 评论 -
Python_Scrapy_执行文件不生成json文件和TypeError: write() argument must be str, not bytes错误及解决
使用刚安装好的scrapy做第一个案例遇到了一堆bug,代码如下:pipelines.pyitem.py我的爬虫文件:test_itcast.py1.实行代码的时候,scrapy crawl test_itcast,实行结果如下:(venv) E:\Scrapy\test1\test1>scrapy crawl test_itcast2018-1...原创 2018-12-08 16:56:05 · 1821 阅读 · 0 评论 -
Python_Scrapy安装问题及解决
系统环境:win7,Python 3.6.4问题描述:使用系统命令cmd安装scrapy时,出现以下错误文字: error: Microsoft Visual C++ 14.0 is required. Get it with "Microsoft Visual C++ Build Tools": http://landinghub.visualstudio.com/visua...原创 2018-12-07 09:57:51 · 287 阅读 · 0 评论 -
Python_TypeError: string indices must be integers
问题描述:在使用Scrapy进行爬虫时候,在Spider中的py文件中想对服务器的响应进行获取数据并进行处理,但是就出现了如下错误TypeError: string indices must be integers 原因分析:从头开始分析,也就是刚进入spider文件的时候,直接打印reponse.body,查看其值print(json.loads(response.bo...原创 2018-12-10 09:54:39 · 4102 阅读 · 0 评论 -
Python_TypeError: Object of type 'DouyuZiItem' is not JSON serializable错误及解决
问题描述:在使用Scrapy进行爬虫时候,在管道文件中想对Spider文件返回的item进行磁盘持久化,但是运行就出现了如下错误Traceback (most recent call last): File "e:\anaconda3\lib\site-packages\twisted\internet\defer.py", line 654, in _runCallbacks ...原创 2018-12-10 10:16:34 · 1303 阅读 · 0 评论 -
python_scrapy_twisted.web.error.SchemeNotSupported: Unsupported scheme: b''_及解决
问题描述:在使用scrapy框架的middleware中间件,去尝试使用代理,执行后就会报错2018-12-26 00:39:30 [scrapy.core.scraper] ERROR: Error downloading <GET http://httpbinorg/get/>Traceback (most recent call last): File "e:\ana...原创 2018-12-26 19:49:11 · 5931 阅读 · 1 评论 -
scrapy_AttributeError: 'generator' object has no attribute 'meta'''_'generator' 'dont_filter'
问题描述:初次使用craapy中间件的时候,重写了process_exception方法,目的是反复去调用,但是报错了,如下:2018-12-26 20:50:57 [scrapy.utils.signal] ERROR: Error caught on signal handler: <bound method RefererMiddleware.request_scheduled ...原创 2018-12-26 20:59:13 · 4505 阅读 · 2 评论 -
scrapy_ [scrapy.spidermiddlewares.offsite] DEBUG: Filtered offsite request to ’XXXX‘
问题描述:在使用scrapy框架进行爬虫时,当解析完请求start_urls的响应进行二次访问的时候,出现了无法访问的情况,系统过滤 了我的请求 .# -*- coding: utf-8 -*-import scrapyclass LuboavSpider(scrapy.Spider): name = 'photo' allowed_domains = ['htt...原创 2018-12-27 00:17:15 · 1001 阅读 · 0 评论 -
scrapy_系统设置_settings.py
设置Scrapy设置允许您自定义所有Scrapy组件的行为,包括核心,扩展,管道和爬虫本身。设置的基础结构提供了键值映射的全局命名空间,代码可以使用它从中提取配置值。可以通过不同的机制来填充设置,这将在下面描述。这些设置也是选择当前活动Scrapy项目的机制(如果您有很多)。有关可用内置设置的列表,请参阅:内置设置参考。指定设置当你使用Scrapy,你必须告诉它你使用哪些设...原创 2018-12-27 16:51:52 · 460 阅读 · 0 评论 -
scrapy_代理ip报错twisted.web.error.SchemeNotSupported: Unsupported scheme: b''
问题描述:在使用scrapy框架进行网络爬虫的时候,是没有问题的,我在DOWNLOADER_MIDDLEWARES中间件中添加了代理ip后,就开始报错,报错如下:Traceback (most recent call last): File "F:\scrapy\venv\lib\site-packages\twisted\internet\defer.py", line 1416,...原创 2019-04-24 15:01:41 · 800 阅读 · 0 评论