重学爬虫
feiyy404
选择往往比努力更重要。
展开
-
关于 Python deque 模块的使用
python deque 支持的操作https://my.oschina.net/u/4344754/blog/3411133根据上文,可以大致理解 deque 模块的底层实现原理。deque 支持多种操作:创建一个新的空队列:# 创建空的队列d1 = deque()print(d1) # deque([]) 创建已经存在元素的队列:# 创建已经存在元素的对象:从 iterable (迭代对象) 数据创建。如果 iterable 没有指定,新队列为空。d = deque("pig"原创 2020-07-17 10:50:57 · 424 阅读 · 0 评论 -
在爬虫中多线程以及队列的应用笔记
为何使用多线程为了提高抓取数据效率:有些网站对访问速度有限制, 这样网站可以可以开启多个线程, 每一个线程使用一个代理, 去提取页面的一部分内容。关于守护线程import threadingimport timedef task(): print("我是需要使用多线程去完成的任务") time.sleep(30) print("线程任务结束")def main(): th1 = threading.Thread(target=task) t原创 2020-07-16 14:36:25 · 366 阅读 · 0 评论 -
认识 python schedule 模块
简单使用话不多说,安装步骤就此省略。 先来看最简单的一个使用:import pprintimport scheduleimport timedef job(): print("I'm working...")def job1(name): print(name)def main(): """模块简单使用""" schedule.every(10).minutes.do(job) # 每10分钟执行一次 schedule.every().h原创 2020-07-13 14:25:00 · 526 阅读 · 0 评论 -
如何找出 post 请求的 url 以及相应的请求参数
我们要模拟用户登录,就必须要发送 post 请求。这时就需要知道请求的 url 以及请求参数。通过表单获取使用 chrome 的选择工具,选择表单的输入框,看 Elements 中的定位的位置,向上找 form 标签中 action 中 URL :通过抓包获取勾选perserve log按钮,防止页面跳转找不到url寻找post数据,确定参数- 参数不会变,直接用,比如密码不是动态加密的时候- 参数会变- 参数在当前的响应中- 通过 js 生成...原创 2020-07-01 14:21:06 · 7469 阅读 · 0 评论 -
Python爬虫代理
代理IP的分类根据代理ip的匿名程度,代理IP可以分为下面四类:透明代理(Transparent Proxy):透明代理虽然可以直接“隐藏”你的IP地址,但是还是可以查到你是谁。匿名代理(Anonymous Proxy):使用匿名代理,别人只能知道你用了代理,无法知道你是谁。高匿代理(Elite proxy或High Anonymity Proxy):高匿代理让别人根本无法发现你是在用代理,所以是最好的选择。在使用的使用,毫无疑问使用高匿代理效果最好从请求使用的协议可以分为:http代理h原创 2020-07-01 12:58:34 · 373 阅读 · 0 评论 -
python requests 库中的 SSL 证书验证
现在很多网站都要求使用 HTTPS 协议,但是有些网站可能并没有设置好 HTTPS 证书,或者网站的 HTTPS 证书不被 CA 机构认可,这时候,这些网站可能就会出现 SSL 证书错误的提示。比如这个示例网站:https://static2.scrape.cuiqingcai.com/。如果我们用 Chrome 浏览器打开这个 URL,则会提示「您的连接不是私密连接」这样的错误,如图所示:我们可以在浏览器中通过一些设置来忽略证书的验证。我们首先直接请求:import requestsresp原创 2020-05-30 14:08:01 · 9328 阅读 · 0 评论