文章目录
爬虫基础
一、 基本概念
1、 简介
1.1 概念
什么是爬虫?
- 爬虫就是通过编写程序,模拟浏览器上网,然后让其去互联网上抓取数据的过程
爬虫的价值:
- 抓取互联网上面的大量的数据,可以将这些数据商业化和商品化
爬虫的合法性:
- 爬虫在法律上是不被禁止的
- 但是其具有违法风险
- 善意爬虫——百度······ / 恶意爬虫······
爬虫带来的风险具体体现:
- 爬虫干扰了被访问网站正常运营
- 时长优化自己的程序,避免干扰被访问网站的正常运行
- 爬虫抓取了受到法律保护的特点类型的数据或信息
- 在使用时,传播爬取到的数据时,审查抓取到的内容,如果发现了涉及到用户信息、商业机密等敏感信息需要及时停止爬取或传播
1.2 爬虫分类
爬虫在使用场景中的分类
- 通用爬虫:
- 搜索引擎抓取系统重要组成部分,抓取的是一整张页面的数据
- 聚焦爬虫:
- 其是建立在通用爬虫的基础之上,其抓取的是页面中特定的局部内容
- 增量式爬虫:
- 检测网站中数据更新情况,只会抓取网站中最新更新出来的数据
1.3 爬虫中的矛与盾
1.3.1 反爬机制
门户网站通过指定相应的策略或者技术手段,防止爬虫程序进行网站数据的爬取
1.3.2 反反爬策略
爬虫程序通过指定相关的策略或者技术手段,破解门户网站中具备的反爬机制,从而可以获取门户网站数据
1.3.3 robots 协议
君子协议,规定了网站中哪些数据可以被爬虫爬取,哪些数据不可以被爬取
1.4 网络协议
1.4.1 http 协议
概念:
- 就是服务器和客户端进行数据交互的一种形式
常用请求头信息:
- User-Agent:当前请求载体的身份标识
- Connection:请求完毕后,是断开连接还是保持连接
常用响应头信息:
- Content-Type:服务器响应会客户端的数据类型
1.4.2 https 协议
概念:
- 安全的超文本传输协议,传输过程中进行了数据的加密
加密方式&#x