文章目录
一、概述
1、爬虫的概念:
通过编写程序,模拟浏览器上网,然后让其去互联网上抓取数据的过程。
2、分类:
1、通用爬虫:抓取系统重要组成部分,抓取的是一整张页面数据。
2、聚焦爬虫:建立在通用爬虫的基础上,抓取的是页面中特定的局部内容。
3、增量式爬虫:检测网站中数据更新的情况,只会抓取网站中最新更新出来的数据。
3、反爬机制
门户网站可以通过相应的策略或者技术手段,防止爬虫程序进行网站数据的爬取。
反反爬策略:
爬虫程序可以制定相应的策略或者技术手段,破解门户网站中具备的反爬机制从而获取信息。
4、robots.txt协议:
君子协议,(非强制性)规定了网站中哪些数据可以被爬虫爬取,哪些数据不可以爬取。
在网址后面加入“/robots.txt”即可查看网站的robots协议。
例如https://www.taobao.com/robots.txt
5、http协议和https协议
http协议:服务器和客户端之间进行数据交互的一种形式
https协议:安全的超文本传输协议
两者区别在于https协议的服务器和客户端之间进行数据交互或传输时对数据进行了数据加密。而http协议没有数据加密。
二、爬虫方法
1、爬虫常用请求头信息:
User-Agent:请求载体的身份标识。服务器可根据这个字段来判断用户浏览器版本、操作系统版本、用户使用的是PC还是手机访问等,以此来对网页进行相应的适配排版。比如使用电脑和手机访问同一网址时网页显示会有所不同。
获取方法:打开网页-右键-检查元素-网络-请求标头
Connection:请求完毕后,是断开连接还是保持连接
常用响应头信息:
Content-Type:服务器响应回客户端的数据类型
2、requests模块
网络爬虫大致分为两个步骤:通过网页链接获取网页内容;对获得的网页内容进行处理。这两个步骤分别使用不同的函数库:requests和beautifulsoup4。
requests模块:p