自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(3)
  • 收藏
  • 关注

转载 第十章 登录与验证码处理

10.1处理登录表单在客户端(浏览器)向服务器提交HTTP请求的时候,两种最常见用到的方法是GET和POST。使用GET方法的时候,查询字符串(名称/值对)是在GET请求的url中发送的:url长度有限制,而且数据会清楚出现在url中。 按照规定,GET请求只应用于获取数据,因此前面介绍的都是使用requests库的get方法爬取 相对于GET请求,POST只应用于提交数据。因为查询字符串(名称

2017-11-19 04:04:56 230

转载 第八章,反爬虫问题

8.1 为什么会被反爬虫浪费网站网络资源 数据值钱8.2反爬虫的方式有哪些在实际的爬虫过程中会遇到各种问题,可以大致将其分成以下三类. 1. 不返回网页,如不返回内容和延迟网页返回时间 2. 返回数据非网页,如返回错误页,返回空白页和爬取多页时均返回同一页 3. 增加获取数据的难度,如登录才可以查看和登录时设置验证码8.2.1不返回网页发出请求后返回404页面首先,网站会通过IP访问量反爬

2017-11-19 00:41:45 1424

转载 多线程爬虫(提升爬虫的速度)

第七章:提升爬虫的速度7.1.1并发和并行 了解并发(concurrency)和并行(parallelism)的概念(操作系统)7.1.2同步和异步 了解同步了异步的概念(操作系统)7.2多线程爬虫GIL(全局资源解释器),python属于 脚本语言,通过解释器运行,区别的编译语言。爬虫属于,本机和服务器的io操作7.2.2学习python多线程 (1)函数式:调用_thread模块中的st

2017-11-17 10:50:43 5447

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除