2019年05月_babyjustsaidyes

12月 11月 10月 09月 08月 07月 06月 05月 04月 01月

原创用selenium驱动浏览器往下滑动，刷新全部数据，实现所有数据都可获取

意义：用selenium访问浏览器时，该网站可能只给你上半部分的数据，爬虫也只能获取这些数据了，你需要滑动到下面，它才给你返回下半部分的网页数据。这样就可以获取到该页面的全部数据。scrollTop=8000的8000是可以自己调整，是指明要滑动的距离（单位：像素）。在self.dri.get(‘https://search.jd.com/Search?keyword=华为手机&e...

2019-05-30 11:07:53 6688 4

原创 img标签后面跟着文本怎么捕捉，为什么xpath捕捉到的信息，实际无法输出

def get_page_from_url(self): a_s = self.dri.find_elements_by_xpath('//div[@class="p-name p-name-type-2"]/a') for a in a_s: url = a.get_attribute('href') print(url) res...

2019-05-30 21:33:31 1409

原创 Watch1Spider' object has no attribute '_rules'

报错如下：File “/usr/local/lib/python3.5/dist-packages/scrapy/spiders/crawl.py”, line 60, in _requests_to_followfor n, rule in enumerate(self._rules):AttributeError: ‘Watch1Spider’ object has no attribu...

2019-05-30 21:14:08 396 1

原创在scrapy中设置随机代理和User-Agent的步骤

意义：可以增加爬取数据的成功率以及爬取速度。1、在settings文件添加User_Agent_list和proxy_list。User_Agent_list = ["Mozilla/5.0 (compatible; MSIE 9.0; Windows NT 6.1; Win64; x64; Trident/5.0; .NET CLR 3.5.30729; .NET CLR 3.0.3072...

2019-05-28 18:00:57 571

原创 Connection was refused by other side: 111: Connection refused. scrapy设置随机代理的步骤

报错1:Connection was refused by other side: 111: Connection refused.报错2：Got data loss in https://www.amazon.cn/. If you want to process broken responses set the setting DOWNLOAD_FAIL_ON_DATALOSS = Fals...

2019-05-28 17:54:54 9508 1

原创 CrawlSpider捕捉url对应的响应数据的（线程）运行规律。

class Watch1Spider(CrawlSpider): name = 'watch1' allowed_domains = ['amazon.cn'] start_urls = ['https://www.amazon.cn/s?k=%E6%99%BA%E8%83%BD%E6%89%8B%E8%A1%A8&__mk_zh_CN=%E4%BA%9A%E9%...

2019-05-28 10:09:56 242

原创爬取分页如果能获取到下一页最好就下一页，不要过度依赖scrapy的url去重功能

我用CrawlSpider爬电商的网站分页时觉得反正可以url去重功能，索性把分页栏的每一页url都获取并发送请求获取相应，相信总会每次访问新一页的response后都会只拿以前每拿过的下一页url，以前都拿过的url通通不要，从而实现不断地获取下一页。结果我很快被amazon打脸：https://www.amazon.cn/s?k=%E6%99%BA%E8%83%BD%E6%89%8B%E8...

2019-05-27 18:54:40 1714 1

原创 NameError: Module 'scrapy_redis.scheduler' doesn't define any object named ' Scheduler'

运行RedisCrawlSpider时报错如下：Traceback (most recent call last):File “/usr/local/lib/python3.5/dist-packages/scrapy/crawler.py”, line 172, in crawlreturn self._crawl(crawler, *args, **kwargs)File “/usr/...

2019-05-27 11:48:49 2535

原创 TCP connection timed out: 10060: 由于连接方在一段时间后没有正确答复或连接的主机没有反应，连接尝试失败。

运行爬虫时报错如下：TCP connection timed out: 10060: 由于连接方在一段时间后没有正确答复或连接的主机没有反应，连接尝试失败。原因：你的代理IP过期或者代理IP有问题，导致request.meta[‘proxy’] = random.choice(PROXIES_NEW[http]) 后 request带着这个IP根本无法访问服务器，被挡在外面！（from dou...

2019-05-27 10:23:27 40033 4

原创 localhost:27017: [WinError 10061] 由于目标计算机积极拒绝，无法连接。

搞爬虫的时候一起动程序就给我来这个报错，我以为被反爬了。pymongo.errors.ServerSelectionTimeoutError: localhost:27017: [WinError 10061] 由于目标计算机积极拒绝，无法连接。原因：因为我那个程序在pipeline里链接了mongodb数据库，而我却没有开mongodb的后台，导致yiled item根本插不进去数据。这个...

2019-05-26 22:10:35 6009

原创 crontab错误 cd: can't cd to /home/python/.*?/dd.sh

dirname: 缺少操作数Try ‘dirname --help’ for more information./home/python/Desktop/python_study/dangdang/dd.sh: 1: cd: can’t cd to /home/python/Desktop/python_study/dangdang/dd.sh出现这种报错原因：写脚本xx.sh出错。cd...

2019-05-24 17:34:19 7188

原创报错Filtered duplicate request: GET xxx - no more duplicates

报错：DEBUG: Filtered duplicate request: <GET https://newhouse.fang.com/house/s/b95/> - no more duplicates will be shown (see DUPEFILTER_DEBUG to show all duplicates)原因：爬取的url重复了，所以RedisSpider模块默...

2019-05-21 11:26:15 1163

原创 RedisSpider的settings信息，往settings文件里增加以下的配置信息后可以把普通的scrapy变成RedisSpider或者RedisCrawlSpider来用。当然还要改变继承等

1. 增加了一个去重容器类的配置, 作用使用Redis的set集合来存储请求的指纹数据, 从而实现请求去重的持久化DUPEFILTER_CLASS = “scrapy_redis.dupefilter.RFPDupeFilter”2. 增加了调度的配置, 作用: 把请求对象存储到Redis数据, 从而实现请求的持久化.SCHEDULER = “scrapy_redis.scheduler.S...

2019-05-20 15:16:58 370 3

原创 Chrome 拓展程序无法加入新的拓展程序

本人试过很多方法，都不行。后来知道Google浏览器要求新版本的浏览器的拓展程序只能来自Google商店，但是Google商店非常难下载，半天都下不了。用68版本的浏览器依旧这样，它很快就更新为71版本了，很多方法都没法阻止它更新。后来我尝试了安装 65.0.3311.4（正式版本）（32 位）的版本才解决了，很多插件都能放置进去。其实我应该一开始就逐渐尝试更低的版本才是，而且65版本的还没法...

2019-05-13 18:27:05 584

原创 scrapy运行报错： Overridden settings XXX

报错截取如下：2019-05-11 22:32:25 [scrapy.crawler] INFO: Overridden settings: {‘ROBOTSTXT_OBEY’: True, ‘SPIDER_MODULES’: [‘douban.spiders’], ‘BOT_NAME’: ‘douban’, ‘NEWSPIDER_MODULE’: ‘douban.spiders’, ‘USER...

2019-05-11 22:37:51 2899 1

原创输入scrapy startproject 后报错AttributeError: module 'lib' has no attribute 'Cryptography_HAS_SSL_ST'

报错如下：python@ubuntu:~/PycharmProjects/untitled$ scrapy startproject hahaTraceback (most recent call last): File "/usr/local/bin/scrapy", line 7, in <module> from scrapy.cmdline import exe...

2019-05-05 11:43:28 761