- 博客(16)
- 资源 (1)
- 问答 (30)
- 收藏
- 关注
原创 用selenium驱动浏览器往下滑动,刷新全部数据,实现所有数据都可获取
意义:用selenium访问浏览器时,该网站可能只给你上半部分的数据,爬虫也只能获取这些数据了,你需要滑动到下面,它才给你返回下半部分的网页数据。这样就可以获取到该页面的全部数据。scrollTop=8000的8000是可以自己调整,是指明要滑动的距离(单位:像素) 。在self.dri.get(‘https://search.jd.com/Search?keyword=华为手机&e...
2019-05-30 11:07:53 6688 4
原创 img标签后面跟着文本怎么捕捉,为什么xpath捕捉到的信息,实际无法输出
def get_page_from_url(self): a_s = self.dri.find_elements_by_xpath('//div[@class="p-name p-name-type-2"]/a') for a in a_s: url = a.get_attribute('href') print(url) res...
2019-05-30 21:33:31 1409
原创 Watch1Spider' object has no attribute '_rules'
报错如下:File “/usr/local/lib/python3.5/dist-packages/scrapy/spiders/crawl.py”, line 60, in _requests_to_followfor n, rule in enumerate(self._rules):AttributeError: ‘Watch1Spider’ object has no attribu...
2019-05-30 21:14:08 396 1
原创 在scrapy中设置随机代理和User-Agent的步骤
意义:可以增加爬取数据的成功率以及爬取速度。1、在settings文件添加User_Agent_list和proxy_list。User_Agent_list = ["Mozilla/5.0 (compatible; MSIE 9.0; Windows NT 6.1; Win64; x64; Trident/5.0; .NET CLR 3.5.30729; .NET CLR 3.0.3072...
2019-05-28 18:00:57 571
原创 Connection was refused by other side: 111: Connection refused. scrapy设置随机代理的步骤
报错1:Connection was refused by other side: 111: Connection refused.报错2:Got data loss in https://www.amazon.cn/. If you want to process broken responses set the setting DOWNLOAD_FAIL_ON_DATALOSS = Fals...
2019-05-28 17:54:54 9508 1
原创 CrawlSpider捕捉url对应的响应数据的(线程)运行规律。
class Watch1Spider(CrawlSpider): name = 'watch1' allowed_domains = ['amazon.cn'] start_urls = ['https://www.amazon.cn/s?k=%E6%99%BA%E8%83%BD%E6%89%8B%E8%A1%A8&__mk_zh_CN=%E4%BA%9A%E9%...
2019-05-28 10:09:56 242
原创 爬取分页如果能获取到下一页最好就下一页,不要过度依赖scrapy的url去重功能
我用CrawlSpider爬电商的网站分页时觉得反正可以url去重功能,索性把分页栏的每一页url都获取并发送请求获取相应,相信总会每次访问新一页的response后都会只拿以前每拿过的下一页url,以前都拿过的url通通不要,从而实现不断地获取下一页。结果我很快被amazon打脸:https://www.amazon.cn/s?k=%E6%99%BA%E8%83%BD%E6%89%8B%E8...
2019-05-27 18:54:40 1714 1
原创 NameError: Module 'scrapy_redis.scheduler' doesn't define any object named ' Scheduler'
运行RedisCrawlSpider时报错如下:Traceback (most recent call last):File “/usr/local/lib/python3.5/dist-packages/scrapy/crawler.py”, line 172, in crawlreturn self._crawl(crawler, *args, **kwargs)File “/usr/...
2019-05-27 11:48:49 2535
原创 TCP connection timed out: 10060: 由于连接方在一段时间后没有正确答复或连接的主机没有反应,连接尝试失败。
运行爬虫时报错如下:TCP connection timed out: 10060: 由于连接方在一段时间后没有正确答复或连接的主机没有反应,连接尝试失败。原因:你的代理IP过期或者代理IP有问题,导致request.meta[‘proxy’] = random.choice(PROXIES_NEW[http]) 后 request带着这个IP根本无法访问服务器,被挡在外面!(from dou...
2019-05-27 10:23:27 40033 4
原创 localhost:27017: [WinError 10061] 由于目标计算机积极拒绝,无法连接。
搞爬虫的时候一起动程序就给我来这个报错,我以为被反爬了。pymongo.errors.ServerSelectionTimeoutError: localhost:27017: [WinError 10061] 由于目标计算机积极拒绝,无法连接。原因:因为我那个程序在pipeline里链接了mongodb数据库,而我却没有开mongodb的后台,导致yiled item根本插不进去数据。这个...
2019-05-26 22:10:35 6009
原创 crontab错误 cd: can't cd to /home/python/.*?/dd.sh
dirname: 缺少操作数Try ‘dirname --help’ for more information./home/python/Desktop/python_study/dangdang/dd.sh: 1: cd: can’t cd to /home/python/Desktop/python_study/dangdang/dd.sh出现这种报错原因:写脚本xx.sh出错 。cd...
2019-05-24 17:34:19 7188
原创 报错Filtered duplicate request: GET xxx - no more duplicates
报错:DEBUG: Filtered duplicate request: <GET https://newhouse.fang.com/house/s/b95/> - no more duplicates will be shown (see DUPEFILTER_DEBUG to show all duplicates)原因:爬取的url重复了,所以RedisSpider模块默...
2019-05-21 11:26:15 1163
原创 RedisSpider的settings信息,往settings文件里增加以下的配置信息后可以把普通的scrapy变成RedisSpider或者RedisCrawlSpider来用。当然还要改变继承等
1. 增加了一个去重容器类的配置, 作用使用Redis的set集合来存储请求的指纹数据, 从而实现请求去重的持久化DUPEFILTER_CLASS = “scrapy_redis.dupefilter.RFPDupeFilter”2. 增加了调度的配置, 作用: 把请求对象存储到Redis数据, 从而实现请求的持久化.SCHEDULER = “scrapy_redis.scheduler.S...
2019-05-20 15:16:58 370 3
原创 Chrome 拓展程序无法加入新的拓展程序
本人试过很多方法,都不行。后来知道Google浏览器要求新版本的浏览器的拓展程序只能来自Google商店,但是Google商店非常难下载,半天都下不了。用68版本的浏览器依旧这样,它很快就更新为71版本了,很多方法都没法阻止它更新。后来我尝试了安装 65.0.3311.4(正式版本) (32 位)的版本才解决了,很多插件都能放置进去。其实我应该一开始就逐渐尝试更低的版本才是,而且65版本的还没法...
2019-05-13 18:27:05 584
原创 scrapy运行报错: Overridden settings XXX
报错截取如下:2019-05-11 22:32:25 [scrapy.crawler] INFO: Overridden settings: {‘ROBOTSTXT_OBEY’: True, ‘SPIDER_MODULES’: [‘douban.spiders’], ‘BOT_NAME’: ‘douban’, ‘NEWSPIDER_MODULE’: ‘douban.spiders’, ‘USER...
2019-05-11 22:37:51 2899 1
原创 输入scrapy startproject 后报错AttributeError: module 'lib' has no attribute 'Cryptography_HAS_SSL_ST'
报错如下:python@ubuntu:~/PycharmProjects/untitled$ scrapy startproject hahaTraceback (most recent call last): File "/usr/local/bin/scrapy", line 7, in <module> from scrapy.cmdline import exe...
2019-05-05 11:43:28 761
我的提问怎么找到?找了好久。。。。。。。。。
2020-12-15
pycharm 如何运行剩余代码
2020-11-17
为什么搜索简介和点进去的不同?进入标题代表的文章,但简介内容是其它文章的
2020-09-29
在网上放置自己的浏览器cookies和User-Agent是否安全?
2020-09-09
请问这个数据分析报告写得怎么样?
2020-08-21
power bi 画直方图与实际数据不符合是什么原因?
2020-08-09
**请问怎么找到相关有效的链接?还请提供以及说出你是怎么找到的?** 重赏!
2020-07-23
power bi 无法加载excel原因是什么?
2020-07-17
为什么虚拟环境pip install 只能安装在真实环境中 而且没法卸载干净?
2020-04-02
virtualenv 和 mkvirtualenv 有什么区别?分布在哪些情况下用?
2019-11-10
python2有easy_install 但是却无法使用是怎么回事?
2019-11-06
Windows似乎未能正确加载 电量突然为0
2019-10-24
我做数据挖掘和爬虫,请问Windows10哪个版本会更好?
2019-10-23
程序员用Windows10哪个版本好?
2019-10-22
为什么我的vmware点击没反应,其它的桌面应用点击都可以打开。
2019-10-12
为这个列表推导式什么无法去重?
2019-09-25
请问下面的题答案是?以及为什么?
2019-09-25
为什么不能把div下的class值都捕捉到
2019-09-22
证书都没有却能抓APP的包
2019-08-28
夜神模拟器没法安装fiddler证书怎么办?
2019-08-09
linux 里的fiddler怎么设置工具栏的字体大小
2019-08-08
我选择的行业和岗位恰好是第1名,未来3年内会不会竞争压力很大?怎么办?
2019-07-28
请问AI行业有哪些就业方向以及各领域下面有哪些具体的岗位?
2019-07-28
AI专业的就业方向及具体岗位有哪些?
2019-07-25
更新⼀遍数据要多久?
2019-07-08
基于xxxx是什么意思啊?
2019-06-02
TA创建的收藏夹 TA关注的收藏夹
TA关注的人