【网络爬虫】爬虫基础

最新推荐文章于 2024-07-17 23:50:36 发布

Day-yong

最新推荐文章于 2024-07-17 23:50:36 发布

阅读量551

点赞数

分类专栏：网络爬虫文章标签：网络爬虫

本文链接：https://blog.csdn.net/Daycym/article/details/82730299

版权

网络爬虫专栏收录该内容

3 篇文章 1 订阅

订阅专栏

爬虫基础

HTTP原理
网页的基础知识
爬虫的基本原理
Cookies的基本原理等
代理的基本原理

1. HTTP原理

1.1 URI和URL

URI：Uniform Resource Identifier，即统一资源标志符
URL：Universal Resource Locator，即统一资源定位符

举个例子：

https://github.com/favicon.ioc是Github的网站图标链接，它是一个URL，也是一个URI。即有了这样一个图标资源，我们用URL/URI来唯一指定了它的访问方式，这其中包括了访问协议https、访问路径（/即根目录）和资源名称favicon.ioc。通过这样一个链接，我们便可以从互联网上找到这个资源，这就是URL和URI。

URL是URI的子集，也就是说每个URL都是URI，但不是每个URI都是URL

1.2 超文本

我们在浏览器里看到的网页就是超文本解析而成的，其网页源代码就一系列HTML代码，里面包含了一系列标签，比如img显示图片，p指定显示段落。

这里写图片描述

打开淘宝首页，按F12，进入浏览器的开发者工具，这时在Elements选项卡即可看到当前网页的源代码，这些代码就是超文本。

1.3 HTTP和HTTPS

HTTP：Hyper Text Transfer Protocol，超文本传输协议
HTTPS：Hyper Text Transfer Protocol over Secure Socket Layer，是以安全为目标的HTTP通道，简单讲是HTTP的安全版，即在HTTP下加入了SSL层

1.4 HTTP请求过程

我们在浏览器中输入一个URL，回车之后便会在浏览器中观察到页面内容，实际上，这个过程是浏览器向网站所在的服务器发送了一个请求，网站服务器接收到这个请求后进行处理和解析，然后返回对应的响应，接着传回给浏览器。响应里包含了页面的源代码等内容，浏览器再对其进行解析，便将网页呈现了出来。

这里写图片描述

上图，我们打开了一个网络请求，右边方框里就是和请求相关的一些信息，这里就不一一介绍了

1.5 请求方式

GET和POST请求方法的区别：

GET请求中的参数包含在URL里面，数据可以在URL中看到，而POST请求的URL不会包含这些数据，数据都是通过表单形式传输的，会包含在请求体中。
GET请求提交的数据最多只有1024字节，而POST没有限制

一般而言，登录时，需要提交用户名和密码，其中包含敏感信息，最好以POST方式发送
上传文件时，由于文件内容比较大，也会选用POST方式

1.6 响应

响应状态码、响应头和响应体

2. 网页基础

此内容，学过WEB的都应该知道，这里就不介绍了

3. 爬虫的基本原理

简单来说，爬虫就是获取网页并提取和保存信息的自动化程序

3.1 获取网页

首先要做的就是获取网页，这里就是获取网页的源代码。（python提供了许多库来帮助我们实现这个操作，如urllib、requests等）

3.2 提取信息

获取网页后，接下来就是解析网页源代码，从中提取我们想要的数据
采用正则表达式是一个万能的方法，但是构造正则表达式的时候容易出错
由于网页的结构有一定的规则，所有还有一些根据节点属性、CSS选择器或XPath来提取网页信息的库
如：Beautiful Soup、pyquery、lxml等

提取信息，是爬虫非常重要的部分，它可以使杂乱的数据变得条理清晰，以便我们后续处理和分析数据

3.3 保存数据

保存数据的形式多种多样
简单保存为TXT文本或JSON文本
保存到数据库
保存到远程服务器

3.4 自动化程序

爬虫便是代替我们来完成爬取工作的自动化程序，它可以在抓取的过程中进行各种异常处理、错误重试等操作，确保爬取持续高效地运行

3.5 能抓怎样的数据

HTML源代码、JSON字符串、二进制数据、CSS、JavaScript和配置文件

3.6 JavaScript渲染页面

有时候我们在用urllib或requests抓取页面的时候，得到的源代码实际上和浏览器中看到的不一样，这是一个非常常见的问题，现在越来越多的采用Ajax、前端模块化工具来构建，整个网页可能都是由JavaScript渲染出来的，也就是说原始的HTML代码就是一个空壳。
对于这种情况，我们可以分析后台的Ajax接口，也可以使用Selenium、Splash这样的库来实现模拟JavaScript渲染

4. 会话和Cookies

在浏览网站的过程中，我们经常回遇到需要登录的情况，有些页面只有登录之后才能访问，而且登录之后可以连续访问很多次网站，但是有时候过一段时间就需要重新登录。还有一些网站在打开浏览器就自动登录了，而且很长时间都不会失效，这种情况又是为什么？

答案就是：这里面涉及会话（Session）和Cookies的相关知识

4.1 会话

会话，其本来的含义是指有始有终的一系列动作/消息。比如，打电话时，从拿起电话拨号到挂断电话这中间的一系列过程可以称为一个会话
而在WEB中，会话对象用来存储特定用户会话所需的属性及配置信息，这样，当用户在应用程序的Web页之间跳转时，存储在会话对象中的变量将不会丢失，而是在整个用户会话中一直存在下去。当用户请求时，还没用会话，Web服务器会自动创建一个会话。
当会话过期或被放弃后，服务器终止该会话