爬虫
一条有钱的咸鱼
这个作者很懒,什么都没留下…
展开
-
多线程爬虫(提升爬虫的速度)
第七章:提升爬虫的速度7.1.1并发和并行 了解并发(concurrency)和并行(parallelism)的概念(操作系统)7.1.2同步和异步 了解同步了异步的概念(操作系统)7.2多线程爬虫GIL(全局资源解释器),python属于 脚本语言,通过解释器运行,区别的编译语言。爬虫属于,本机和服务器的io操作7.2.2学习python多线程 (1)函数式:调用_thread模块中的st转载 2017-11-17 10:50:43 · 5447 阅读 · 0 评论 -
第八章,反爬虫问题
8.1 为什么会被反爬虫浪费网站网络资源 数据值钱8.2反爬虫的方式有哪些在实际的爬虫过程中会遇到各种问题,可以大致将其分成以下三类. 1. 不返回网页,如不返回内容和延迟网页返回时间 2. 返回数据非网页,如返回错误页,返回空白页和爬取多页时均返回同一页 3. 增加获取数据的难度,如登录才可以查看和登录时设置验证码8.2.1不返回网页发出请求后返回404页面首先,网站会通过IP访问量反爬转载 2017-11-19 00:41:45 · 1424 阅读 · 0 评论 -
第十章 登录与验证码处理
10.1处理登录表单在客户端(浏览器)向服务器提交HTTP请求的时候,两种最常见用到的方法是GET和POST。使用GET方法的时候,查询字符串(名称/值对)是在GET请求的url中发送的:url长度有限制,而且数据会清楚出现在url中。 按照规定,GET请求只应用于获取数据,因此前面介绍的都是使用requests库的get方法爬取 相对于GET请求,POST只应用于提交数据。因为查询字符串(名称转载 2017-11-19 04:04:56 · 230 阅读 · 0 评论