网络爬虫开发实战_第2章_爬虫基础

1 HTTP基本原理

  1. URI:统一资源标志符;URL:统一资源定位符。URL是URI的一个子集。两者没有作区分的必要。一般的网页链接均称为URL。
  2. 超文本即网页的源代码。
  3. HTTP:超文本传输协议。HTTPS:HTTP的安全版,在HTTP中加入的SSL层。
  4. HTTP请求过程,即客户端向服务器发送一个请求,服务器对客户端进行响应的过程。
  5. 请求包含请求方法、请求的网址、请求头、请求体四个部分。
  6. 请求方法常用GET、POST两种。GET请求的参数包含在URL中。POST请求的参数以表单的形式传输,不会出现在URL中。在构造POST请求时,POST请求提交数据的方式不同,请求头中Content-Type的格式设置不同。
  7. 响应包含响应状态码、响应头、相应体三个部分。
  8. 响应状态码表示服务器的相应状态。常见的状态码有200、404等。
  9. 响应头是对响应的各个属性的描述,响应体是响应的正文数据。

2 网页基础

  1. 网页可以分为三大部分:HTML、CSS、JavaScript。
  2. HTML定义了网页的结构,CSS描述了各个模块的样式,JavaScript描述了网页的动作。

3 爬虫的基本原理

  1. 爬虫的工作过程一般是获取网页的源代码、提取有效信息、保持数据,同时,爬虫能实现该过程的自动化。
  2. 静态网页的内容是固定的,动态网页可以动态地解析URL中参数的变化,关联数据库并动态地呈现不同地页面内容,灵活多变。
  3. HTTP协议对事务处理是没有记忆能力的,称为无状态的HTTP。为了保持HTTP的连接状态,出现了会话和Cookies。会话在服务器端,用于保存用户的会话信息,Cookies在客户端,是请求中表示用户身份的附加信息。
  4. 代理可以根据不同的协议分类,也可以根据匿名程度分类。
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值