Python3爬虫教程基础篇之一:什么是爬虫

爬虫的定义

爬虫,全名为网络爬虫(英文:web crawler),是一种请求网络资源并提取保存的计算机自动化程序。

最典型的爬虫是百度爬虫。它通过第一时间收集互联网的最新资源并建立索引,使得用户可以在百度(www.baidu.com)中快速地搜索互联网资源。

爬虫的基本流程

一:发送 HTTP 请求(Request)

通过 Python 库向目标站点发送 HTTP 请求,等待服务器响应。

如下图,即是客户端向 example.com 服务器发送的 HTTP 原始请求。

二:获取响应内容(Response)

接着,如果服务器 example.com 正确理解了上图的请求,就会返回 200 状态码的响应内容。

如下图:

HTTP/1.1 表示使用的是 1.1 版本的 HTTP 协议。

200 是状态码,后面的 OK 是对状态码的简单描述(status text)。常见的 HTTP 状态码还有301(资源永久转移)、404(未找到资源)、500(服务器内部错误)等。

Content-Type 和 Content-Length 都是响应结果的头部࿰

  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值