![](https://img-blog.csdnimg.cn/20201014180756724.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
爬虫
pigYanYan
这个作者很懒,什么都没留下…
展开
-
Redis异常:redis.exceptions.ResponseError: WRONGTYPE Operation against a key holding the wrong kind of
今天在测试爬虫的时候在Redis中手动添加了一个key,key值是要爬取的url。之前也是这么测试的都没有任何问题,今天出了个Redis异常:响应错误:大概意思是说key的类型不对,然后我去把这个key删掉就没问题了,后面添加新的还是报这个错误,就懵逼了。最后网上查了资料才发现是创建key的时候的类型选错了,估计是什么时候手抖了点到的,如下图位置改为list就了,其实就是粗心导致的错误!!...原创 2018-07-05 09:57:38 · 14528 阅读 · 0 评论 -
Python爬虫工程师面试常见题
一.项目问题: 一般面试官的第一个问题八成都是问一下以前做过的项目,所以最好准备两个自己最近写的有些技术含量的项目,当然一定要自己亲手写过的,在别的地方看的源码,就算看的再清楚,总归没有自己敲的了解的多。以下是抽出的几点1.你写爬虫的时候都遇到过什么反爬虫措施,你是怎么解决的2.用的什么框架,为什么选择这个框架(我用的是scrapy框架,所以下面的问题也是针对scrapy)二.框架问题(sc...原创 2018-06-25 10:45:12 · 6619 阅读 · 3 评论 -
正则表达式验证邮箱格式
需满足的验证逻辑:@之前必须有内容且只能是字母(大小写)、数字、下划线(_)、减号(-)、点(.)@和最后一个点(.)之间必须有内容且只能是字母(大小写)、数字、点(.)、减号(-),且两个点不能挨着最后一个点(.)之后必须有内容且内容只能是字母(大小写)、数字且长度为大于等于2个字节,小于等于6个字节邮箱验证的正则表达式:^[a-zA-Z0-9_.-]+@[a-zA-Z0-9-]+(\.[a-z...转载 2018-06-22 22:33:10 · 29243 阅读 · 2 评论 -
scrapy框架中选择器的使用
Selector选择器Scrapy框架提供了自己的数据解析方法,即Selector(选择器)。1、Selector(选择器)是基于lxml来构建的,支持XPath、CSS选择器以及正则表达式,功能全面,解析速度和准确度非常高。2、Selector(选择器)是一个可以独立使用模块。 直接导入模块就可实例化使用。=============================================...原创 2018-05-29 22:43:34 · 593 阅读 · 0 评论 -
Python爬取有道翻译
转载自https://blog.csdn.net/nunchakushuang/article/details/75294947一、正常的爬虫流程:如果你要爬取他的翻译接口,这个流程还是不能少的。首先我们打开有道翻译的链接:http://fanyi.youdao.com/。然后在页面中右键->检查->Network项。这时候就来到了网络监听窗口,以后你在这个页面中发送的所有网络请求,都...转载 2018-05-16 21:42:50 · 11543 阅读 · 7 评论 -
http.cookiejar库之CookieJar
CookieJar和HTTPCookieProcessor我们在使用爬虫的时候,经常会用到cookie进行模拟登陆和访问。在使用urllib库做爬虫,我们需要借助http.cookiejar库中的CookieJar来实现。CookieJar类有一些子类,分别是FileCookieJar,MozillaCookieJar,LWPCookieJar。CookieJar:管理HTTP cookie值、存...转载 2018-06-03 17:10:40 · 29211 阅读 · 0 评论 -
Scrapy框架之Spiders类理解
SpidersSpider类定义了如何爬取某个(或某些)网站。包括了爬取的动作(例如:是否跟进链接)以及如何从网页的内容中提取结构化数据(爬取item)。 换句话说,Spider就是您定义爬取的动作及分析某个网页(或者是有些网页)的地方。对spider来说,爬取的循环类似下文:以初始的URL初始化Request,并设置回调函数。 当该request下载完毕并返回时,将生成response,并作为参...转载 2018-06-03 16:08:14 · 1001 阅读 · 0 评论 -
celery+redis实现定时任务遇到的坑
这是关于设置时区TimeZone的坑,一开始按照默认的设置时区为UTC,如图后面在crontab折腾了半天都没有成功执行,后面心想会不会跟时区有关系,把时区改为"Asia/Shanghai",居然就成功执行了!坑...原创 2019-01-07 14:58:40 · 3262 阅读 · 1 评论