爬虫基础01 认识爬虫

1. 爬虫概述

爬虫:网络爬虫是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。其本质就是通过编写程序拟浏览器上网,抓取数据的过程。

2. 爬虫特点

  • 在法律中都是不被禁止的;

  • 具有违法风险;

  • 爬虫是一个博弈的过程(反爬机制、反反爬策略)

  • robots协议:规定了网站中哪些数据可以被爬取哪些数据不可以被爬取,属于一个君子协议。

3. 爬虫分类

按照系统结构和实现技术,大致可以分为以下几种类型:

  • 通用爬虫:通常抓取互联网整张页面数据;

  • 聚焦爬虫:选择性地爬取与预定主题相关的网络爬虫;

  • 增量式爬虫:监测网站中数据的更新情况,通常只抓取网站中最新更新的数据;

  • 深层网络爬虫:通常通过关键字检索获取内容。

名称场景特点缺点
通用网络爬虫门户站点搜索引擎、大型Web服务提供商采集数据爬行范围和数量巨大、爬行页面顺序要求低、并行工作方式,爬取互联网上的所有数据爬虫速度和存储空间要求高、刷新页面的时间长
聚焦网络爬虫又称主题网络爬虫,只爬行特定的数据,商品比价极大 节省了硬件和网络资源,页面更新快
增量式网络爬虫只抓取刚刚更新的数据数据下载量少,及时更新已爬行的网页,减少时间可空间上的耗费、爬取到的都是最新页面增加了爬行算法的复杂度和实现难度
深层网络爬虫大部分内容不能通过静态链接获取,隐藏在搜索表单后,用户提交一些关键词才能获得

按实现方式,大致可以分为以下几种类型:

  • 服务器渲染爬虫:在服务器直接把数据和html整合在一起,统一返回浏览器(在页面中可以看到数据)

  • 客户端渲染爬虫:第一请求只返回html框架、第二次请求拿到数据,进行数据展示(在页面源码中,看不到数据)

4. http协议

超文本传输协议(http协议)是一个简单的请求-响应协议,它通常运行在TCP协议之上。它指定了客户端可能发送给服务器什么样的消息以及得到什么样的响应。

4.1 http请求

请求消息包括以下格式:请求行(request line)、请求头部(header)、空行和请求数据四个部分组成,常用的请求方式包括get请求和post请求。

4.2 get请求

GET / HTTP/1.1
Host: www.baidu.com
User-Agent: Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/51.0.2704.106 Safari/537.36
Connection: keep-alive
Accept-Encoding: gzip, deflate, sdch
Accept-Language: zh-CN,zh;q=0.8
​

4.3 post请求

POST / HTTP/1.1
Host: www.wrox.com
User-Agent: Mozilla/5.0 (Windows; U; Windows NT 5.1; en-US; rv:1.7.6) Gecko/20050225 Firefox/1.0.1
Content-Type: application/x-www-form-urlencoded
Content-Length: 40
Connection: Keep-Alive
​
name=Professional%20Ajax&publisher=Wiley

5. 开发中常用请求头属性

请求头属性描述
Host服务器地址
User-Agent请求载体的身份标识
Connection请求完毕后,是断开连接还是保持连接

5.1 get和post区别

  • get提交的数据会放在URL之后(以?分割),参数之间以&相连;post方法是把提交的数据放在HTTP包的Body中

  • get提交的数据大小有限制(因为浏览器对URL的长度有限制);post提交的数据没有限制

  • get提交数据,会带来安全问题;post相对安全

5.2 http响应

一般情况下,服务器接收并处理请求后会返回一个响应消息。HTTP响应由四个部分组成:状态行、消息报头、空行和响应正文

5.3 开发中常用响应头属性

响应头属性描述
Content-Type服务器响应给客户端的数据类型

5.4 响应状态码

状态码描述
200客户端请求成功
400客户端请求有语法错误,不能被服务器所理解
401请求未经授权,这个状态代码必须和WWW-Authenticate报头域一起使用
403服务器收到请求,但是拒绝提供服务
404请求资源不存在,或输入了错误的URL
500服务器发生不可预期的错误
503服务器当前不能处理客户端的请求,一段时间后可能恢复正常

6. 爬虫库/框架

6.1 请求库

模块/框架描述
urlliburllib库用于操作网页 URL,并对网页的内容进行抓取处理。操作较为复杂,缺少实用的高级功能
requests在urllib基础上进行封装,提供更加便捷的方法
selenium自动化测试框架,解决requests无法执行javaScript代码的问题

6.2 解析库

模块/框架描述
Beautiful Soup功能强大的html解析库,整合了一些常用爬虫功能。
lxmlxpath解析库

6.3 爬虫框架

框架描述
Scrapy强大的爬虫框架,可以满足绝大多数爬虫需求
  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值