自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(16)
  • 资源 (1)
  • 问答 (30)
  • 收藏
  • 关注

原创 用selenium驱动浏览器往下滑动,刷新全部数据,实现所有数据都可获取

意义:用selenium访问浏览器时,该网站可能只给你上半部分的数据,爬虫也只能获取这些数据了,你需要滑动到下面,它才给你返回下半部分的网页数据。这样就可以获取到该页面的全部数据。scrollTop=8000的8000是可以自己调整,是指明要滑动的距离(单位:像素) 。在self.dri.get(‘https://search.jd.com/Search?keyword=华为手机&e...

2019-05-30 11:07:53 6688 4

原创 img标签后面跟着文本怎么捕捉,为什么xpath捕捉到的信息,实际无法输出

def get_page_from_url(self): a_s = self.dri.find_elements_by_xpath('//div[@class="p-name p-name-type-2"]/a') for a in a_s: url = a.get_attribute('href') print(url) res...

2019-05-30 21:33:31 1409

原创 Watch1Spider' object has no attribute '_rules'

报错如下:File “/usr/local/lib/python3.5/dist-packages/scrapy/spiders/crawl.py”, line 60, in _requests_to_followfor n, rule in enumerate(self._rules):AttributeError: ‘Watch1Spider’ object has no attribu...

2019-05-30 21:14:08 396 1

原创 在scrapy中设置随机代理和User-Agent的步骤

意义:可以增加爬取数据的成功率以及爬取速度。1、在settings文件添加User_Agent_list和proxy_list。User_Agent_list = ["Mozilla/5.0 (compatible; MSIE 9.0; Windows NT 6.1; Win64; x64; Trident/5.0; .NET CLR 3.5.30729; .NET CLR 3.0.3072...

2019-05-28 18:00:57 571

原创 Connection was refused by other side: 111: Connection refused. scrapy设置随机代理的步骤

报错1:Connection was refused by other side: 111: Connection refused.报错2:Got data loss in https://www.amazon.cn/. If you want to process broken responses set the setting DOWNLOAD_FAIL_ON_DATALOSS = Fals...

2019-05-28 17:54:54 9508 1

原创 CrawlSpider捕捉url对应的响应数据的(线程)运行规律。

class Watch1Spider(CrawlSpider): name = 'watch1' allowed_domains = ['amazon.cn'] start_urls = ['https://www.amazon.cn/s?k=%E6%99%BA%E8%83%BD%E6%89%8B%E8%A1%A8&__mk_zh_CN=%E4%BA%9A%E9%...

2019-05-28 10:09:56 242

原创 爬取分页如果能获取到下一页最好就下一页,不要过度依赖scrapy的url去重功能

我用CrawlSpider爬电商的网站分页时觉得反正可以url去重功能,索性把分页栏的每一页url都获取并发送请求获取相应,相信总会每次访问新一页的response后都会只拿以前每拿过的下一页url,以前都拿过的url通通不要,从而实现不断地获取下一页。结果我很快被amazon打脸:https://www.amazon.cn/s?k=%E6%99%BA%E8%83%BD%E6%89%8B%E8...

2019-05-27 18:54:40 1714 1

原创 NameError: Module 'scrapy_redis.scheduler' doesn't define any object named ' Scheduler'

运行RedisCrawlSpider时报错如下:Traceback (most recent call last):File “/usr/local/lib/python3.5/dist-packages/scrapy/crawler.py”, line 172, in crawlreturn self._crawl(crawler, *args, **kwargs)File “/usr/...

2019-05-27 11:48:49 2535

原创 TCP connection timed out: 10060: 由于连接方在一段时间后没有正确答复或连接的主机没有反应,连接尝试失败。

运行爬虫时报错如下:TCP connection timed out: 10060: 由于连接方在一段时间后没有正确答复或连接的主机没有反应,连接尝试失败。原因:你的代理IP过期或者代理IP有问题,导致request.meta[‘proxy’] = random.choice(PROXIES_NEW[http]) 后 request带着这个IP根本无法访问服务器,被挡在外面!(from dou...

2019-05-27 10:23:27 40033 4

原创 localhost:27017: [WinError 10061] 由于目标计算机积极拒绝,无法连接。

搞爬虫的时候一起动程序就给我来这个报错,我以为被反爬了。pymongo.errors.ServerSelectionTimeoutError: localhost:27017: [WinError 10061] 由于目标计算机积极拒绝,无法连接。原因:因为我那个程序在pipeline里链接了mongodb数据库,而我却没有开mongodb的后台,导致yiled item根本插不进去数据。这个...

2019-05-26 22:10:35 6009

原创 crontab错误 cd: can't cd to /home/python/.*?/dd.sh

dirname: 缺少操作数Try ‘dirname --help’ for more information./home/python/Desktop/python_study/dangdang/dd.sh: 1: cd: can’t cd to /home/python/Desktop/python_study/dangdang/dd.sh出现这种报错原因:写脚本xx.sh出错 。cd...

2019-05-24 17:34:19 7188

原创 报错Filtered duplicate request: GET xxx - no more duplicates

报错:DEBUG: Filtered duplicate request: <GET https://newhouse.fang.com/house/s/b95/> - no more duplicates will be shown (see DUPEFILTER_DEBUG to show all duplicates)原因:爬取的url重复了,所以RedisSpider模块默...

2019-05-21 11:26:15 1163

原创 RedisSpider的settings信息,往settings文件里增加以下的配置信息后可以把普通的scrapy变成RedisSpider或者RedisCrawlSpider来用。当然还要改变继承等

1. 增加了一个去重容器类的配置, 作用使用Redis的set集合来存储请求的指纹数据, 从而实现请求去重的持久化DUPEFILTER_CLASS = “scrapy_redis.dupefilter.RFPDupeFilter”2. 增加了调度的配置, 作用: 把请求对象存储到Redis数据, 从而实现请求的持久化.SCHEDULER = “scrapy_redis.scheduler.S...

2019-05-20 15:16:58 370 3

原创 Chrome 拓展程序无法加入新的拓展程序

本人试过很多方法,都不行。后来知道Google浏览器要求新版本的浏览器的拓展程序只能来自Google商店,但是Google商店非常难下载,半天都下不了。用68版本的浏览器依旧这样,它很快就更新为71版本了,很多方法都没法阻止它更新。后来我尝试了安装 65.0.3311.4(正式版本) (32 位)的版本才解决了,很多插件都能放置进去。其实我应该一开始就逐渐尝试更低的版本才是,而且65版本的还没法...

2019-05-13 18:27:05 584

原创 scrapy运行报错: Overridden settings XXX

报错截取如下:2019-05-11 22:32:25 [scrapy.crawler] INFO: Overridden settings: {‘ROBOTSTXT_OBEY’: True, ‘SPIDER_MODULES’: [‘douban.spiders’], ‘BOT_NAME’: ‘douban’, ‘NEWSPIDER_MODULE’: ‘douban.spiders’, ‘USER...

2019-05-11 22:37:51 2899 1

原创 输入scrapy startproject 后报错AttributeError: module 'lib' has no attribute 'Cryptography_HAS_SSL_ST'

报错如下:python@ubuntu:~/PycharmProjects/untitled$ scrapy startproject hahaTraceback (most recent call last): File "/usr/local/bin/scrapy", line 7, in <module> from scrapy.cmdline import exe...

2019-05-05 11:43:28 761

sort_values

sort_values

2022-02-15

我的提问怎么找到?找了好久。。。。。。。。。

2020-12-15

pycharm 如何运行剩余代码

2020-11-17

为什么搜索简介和点进去的不同?进入标题代表的文章,但简介内容是其它文章的

2020-09-29

在网上放置自己的浏览器cookies和User-Agent是否安全?

2020-09-09

请问这个数据分析报告写得怎么样?

2020-08-21

power bi 画直方图与实际数据不符合是什么原因?

2020-08-09

做数据分析提出建议选公司的哪些商品(药品)打广告会更好(目的是提高品牌知名度、利润)?商品链接如何定价、定量/单能效益最大化?

2020-08-07

**请问怎么找到相关有效的链接?还请提供以及说出你是怎么找到的?** 重赏!

2020-07-23

power bi 无法加载excel原因是什么?

2020-07-17

为什么虚拟环境pip install 只能安装在真实环境中 而且没法卸载干净?

2020-04-02

virtualenv 和 mkvirtualenv 有什么区别?分布在哪些情况下用?

2019-11-10

python2有easy_install 但是却无法使用是怎么回事?

2019-11-06

Windows似乎未能正确加载 电量突然为0

2019-10-24

我做数据挖掘和爬虫,请问Windows10哪个版本会更好?

2019-10-23

程序员用Windows10哪个版本好?

2019-10-22

IP not found for MAC 00:0c:29:05:b5:26 in DHCP leases

2019-10-20

重启docker之后输入ls找不到挂载的文件了,请问怎么回事?(vmware启动docker虚拟机)

2019-10-19

为什么我的vmware点击没反应,其它的桌面应用点击都可以打开。

2019-10-12

为这个列表推导式什么无法去重?

2019-09-25

请问下面的题答案是?以及为什么?

2019-09-25

为什么不能把div下的class值都捕捉到

2019-09-22

docker启动后镜像就消失了bash: vmrun.exe: command not found

2019-09-17

证书都没有却能抓APP的包

2019-08-28

夜神模拟器没法安装fiddler证书怎么办?

2019-08-09

linux 里的fiddler怎么设置工具栏的字体大小

2019-08-08

我选择的行业和岗位恰好是第1名,未来3年内会不会竞争压力很大?怎么办?

2019-07-28

请问AI行业有哪些就业方向以及各领域下面有哪些具体的岗位?

2019-07-28

AI专业的就业方向及具体岗位有哪些?

2019-07-25

更新⼀遍数据要多久?

2019-07-08

基于xxxx是什么意思啊?

2019-06-02

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除