前言导入:
随着大数据时代的来临,网络爬虫在互联网中的地位将越来越重要。互联网中的数据是海量的,如何自动高效地获取互联网中我们感兴趣的信息并为我们所用是一个重要的问题,而爬虫技术就是为了解决这些问题而生的。
我们感兴趣的信息分为不同的类型:如果只是做搜索引擎,那么感兴趣的信息就是互联网中尽可能多的高质量网页;如果要获取某一垂直领域的数据或者有明确的检索需求,那么感兴趣的信息就是根据我们的检索和需求所定位的这些信息,此时,需要过滤掉一些无用信息。前者我们称为通用网络爬虫,后者我们称为聚焦网络爬虫。
什么是爬虫?
网络爬虫又称为网络蜘蛛,网络蚂蚁等,它可以实现自动化浏览网络上的信息,它可以按照我们编写的代码指定的规则来进行浏览,这些规则我们成为网络爬虫算法。
为什么选择Python作为爬虫工具?
Java:代码量大,代码笨重,需要大量的知识储备。
PHP:对多线程,异步支持不太适用。爬虫讲究的是高效获取数据,多线程操作相当于很多台计算机同时进行数据获取,效率那是非常高滴。
C/C++:代码量大,难以编写。作为计算机语言的大头,C语言过于复杂,对程序员的要求过大,因此不适合做爬虫。
Python:支持模块多,代码简洁易懂,开发效率高。python的许多方法都在模块或者库中,仅需安装之后便可直接使用。
爬虫的分类:
垂直爬虫:也称为专业爬虫,是指只针对特定领域、特定网站或特定类型数据进行爬取的爬虫。例如,针对电商网站的价格跟踪爬虫,针对新闻网站的新闻爬虫等。
横向爬虫:也称为通用爬虫,是指通过搜索引擎对网站进行全面爬取的爬虫,它会递归访问网站上的链接,搜集和索引其中的信息,这种爬虫常用于搜索引擎的搜索爬取。
增量式爬虫:是指通过比较网站的变化,只针对更新或改动的内容进行爬取,以节省时间和资源。例如,通过比较网页的时间戳或数据版本号进行增量爬取。
深度爬虫:是指爬虫可以深度挖掘网站上的信息,可以实现页面深度遍历,收集到更深层次和更详细的数据。
分布式爬虫:是指采用分布式计算的方式,将爬虫程序分布在多台服务器上,同时进行爬取,以提高爬取效率,避免单点故障。对于大规模爬取或难以单机完成的任务而言,分布式爬虫是必须的选择。
通用网络爬虫 例如 baidu google yahu。
聚焦网络爬虫: 根据既定的目标有选择的抓取某一特定主题内容。
爬虫的合法性:
爬虫作为一种计算机技术就决定了它的中立性,因此爬虫本身在法律上并不被禁止,但是利用爬虫技术获取数据这一行为是具有违法甚至是犯罪的风险的。
(爬虫爬的好,牢饭吃得饱)希望大家不要使用爬虫进行一些盈利活动!!!
http与https协议:
1.什么是协议?
网络协议是根据网络上的节点进行通信的一组规则,有了这种规则,不同厂商的生产设备,以及不同操作系统组成的计算机之间,就可以实现通信。
2.HTTP协议:
HTTP
协议(超文本传输协议HyperText Transfer Protocol),它是基于TCP协议的应用层传输协议,简单来说就是客户端和服务端进行数据传输的一种规则。
设计HTTP最初的目的是为了提供一种发布和接收HTML页面的方法。 HTPP有多个版本,目前广泛使用的是HTTP/1.1版本。有些爬虫运用的是http/2.0版本。
3.什么是HTTPS?
https=http+ssl,顾名思义,https是在http的基础上加上了SSL保护壳,信息的加密过程就是在SSL中完成。
4.什么是SSL?
SSL也是一个协议主要用于web的安全传输。
5.什么是Robot协议:
Robot协议(也称为爬虫协议或机器人协议)是Web爬虫与网站的一种约定,用于指导搜索引擎或其他爬虫程序如何访问网站上的内容。它是一种简单的文本文件(robots.txt),位于网站根目录下,其中包含了一些指令,告诉爬虫程序哪些页面可以被爬取,哪些不可以被爬取。
6.如何查看网站的Robot协议(以百度为例):
在其网址后面加上/robots.txt即可查看
部分要求:
7.HTTPS和HTTP的区别与总结:
一般http中存在如下问题:
-
请求信息明文传输,容易被窃听截取。
-
数据的完整性未校验,容易被篡改
-
没有验证对方身份,存在冒充危险
HTTPS的缺点
-
HTTPS协议多次握手,导致页面的加载时间延长近50%;
-
HTTPS连接缓存不如HTTP高效,会增加数据开销和功耗;
-
申请SSL证书需要钱,功能越强大的证书费用越高。
-
SSL涉及到的安全算法会消耗 CPU 资源,对服务器资源消耗较大。
总结
-
HTTPS是HTTP协议的安全版本,HTTP协议的数据传输是明文的,是不安全的,HTTPS使用了SSL/TLS协议进行了加密处理。
-
http和https使用连接方式不同,默认端口也不一样,http是80,https是443。
认识URL:
发送http请求时,通过URL对网络资源进行定位。 URL(Uniform Resource Locator),中文叫统一资源定位符。是用来标识某一处资源的地址。即是我们常说的网址。
常见请求方法
GET:请求指定的页面信息,并返回实体主体。
POST:向指定资源提交数据进行处理请求(例如提交表单或者上传文件)。数据被包含在请求体中。POST请求可能会导致新的资源的建立和/或已有资源的修改。
HEAD:类似于get请求,只不过返回的响应中没有具体的内容,用于获取报头
PUT:从客户端向服务器传送的数据取代指定的文档的内容。
DELETE:请求服务器删除指定的页面。
响应状态码
访问一个网页时,浏览器会向web服务器发出请求。此网页所在的服务器会返回一个包含HTTP状态码的信息头用以响应浏览器的请求。 状态码分类:
1XX- 信息型,服务器收到请求,需要请求者继续操作。
2XX- 成功型,请求成功收到,理解并处理。
3XX - 重定向,需要进一步的操作以完成请求。
4XX - 客户端错误,请求包含语法错误或无法完成请求。
5XX - 服务器错误,服务器在处理请求的过程中发生了错误。
常见状态码:
200 OK - 客户端请求成功
301 - 资源(网页等)被永久转移到其它URL
302 - 临时跳转
400 Bad Request - 客户端请求有语法错误,不能被服务器所理解
401 Unauthorized - 请求未经授权,这个状态代码必须和WWW-Authenticate报头域一起使用
404 - 请求资源不存在,可能是输入了错误的URL
500 - 服务器内部发生了不可预期的错误
503 Server Unavailable - 服务器当前不能处理客户端的请求,一段时间后可能恢复正常。
抓包工具的使用(F12打开发者工具):
我们通常使用抓包工具定位我们想要爬取的数据。
元素 : 元素 网页源代码,提取数据和分析数据(有些数据是经过特殊处理的所以并不是都是准确的)
控制台 : 控制台 (打印信息)
源代码 : 信息来源 (整个网站加载的文件)
网络 : 网络工作(信息抓包) 能够看到很多的网页请求