网络爬虫开发实战_第2章_爬虫基础

最新推荐文章于 2023-05-10 16:44:51 发布

Vacuum1

最新推荐文章于 2023-05-10 16:44:51 发布

阅读量120

点赞数

分类专栏：爬虫

本文链接：https://blog.csdn.net/m0_37983568/article/details/81746812

版权

爬虫专栏收录该内容

2 篇文章 0 订阅

订阅专栏

                    
                        
                    
                    1 HTTP基本原理 
URI：统一资源标志符；URL：统一资源定位符。URL是URI的一个子集。两者没有作区分的必要。一般的网页链接均称为URL。
超文本即网页的源代码。
HTTP：超文本传输协议。HTTPS：HTTP的安全版，在HTTP中加入的SSL层。
HTTP请求过程，即客户端向服务器发送一个请求，服务器对客户端进行响应的过程。
请求包含请求方法、请求的网址、请求头、请求体四个部分。
请求方法常用GET、POST两种。GET请求的参数包含在URL中。POST请求的参数以表单的形式传输，不会出现在URL中。在构造POST请求时，POST请求提交数据的方式不同，请求头中Content-Type的格式设置不同。
响应包含响应状态码、响应头、相应体三个部分。
响应状态码表示服务器的相应状态。常见的状态码有200、404等。
响应头是对响应的各个属性的描述，响应体是响应的正文数据。
 
2 网页基础 
网页可以分为三大部分：HTML、CSS、JavaScript。
HTML定义了网页的结构，CSS描述了各个模块的样式，JavaScript描述了网页的动作。
 
3 爬虫的基本原理 
爬虫的工作过程一般是获取网页的源代码、提取有效信息、保持数据，同时，爬虫能实现该过程的自动化。
静态网页的内容是固定的，动态网页可以动态地解析URL中参数的变化，关联数据库并动态地呈现不同地页面内容，灵活多变。
HTTP协议对事务处理是没有记忆能力的，称为无状态的HTTP。为了保持HTTP的连接状态，出现了会话和Cookies。会话在服务器端，用于保存用户的会话信息，Cookies在客户端，是请求中表示用户身份的附加信息。
代理可以根据不同的协议分类，也可以根据匿名程度分类。

                

Vacuum1

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
网络爬虫开发实战_第2章_爬虫基础

1 HTTP基本原理URI：统一资源标志符；URL：统一资源定位符。URL是URI的一个子集。两者没有作区分的必要。一般的网页链接均称为URL。超文本即网页的源代码。HTTP：超文本传输协议。HTTPS：HTTP的安全版，在HTTP中加入的SSL层。...
复制链接

扫一扫