python3网络爬虫-介绍

本文介绍了网络爬虫的基本概念,包括通用爬虫和聚焦爬虫,并深入讲解了HTTP协议的工作原理,如GET和POST请求、常用请求头、响应头以及HTTP状态码。还提及了Cookie和Session在保持HTTP会话中的作用。
摘要由CSDN通过智能技术生成

大家都说现在是“大数据时代”,然而数据从何而来?

如果需要的数据市场上没有,或者不愿意花钱购买,可以通过网络爬虫的方式从万维网上抓取想要的数据。

1. 爬虫的分类

根据使用场景不同,网络爬虫可以分为通用爬虫聚焦爬虫两种。

2. 爬虫的基础-HTTP协议基本原理

网络爬虫抓取数据的过程可以理解为模拟浏览器操作的过程,因此在学习爬虫之前要先学习HTTP协议的原理。

HTTP协议(Hyper Text Transfer Protocol, 超文本传输协议):从万维网服务器传送超文本到本地浏览器的一种传送协议。

HTTPS(Hyper Text Transfer Protocol over Secure Socket Layer):是HTTP的安全版,在HTTP下加入了SSL层。

SSL(Secure Socket Layer安全套接层)主要用于Web的安全传输协议,在传输层对网络连接进行加密,保障在Internet上数据传输的安全。

HTTP的端口号为:80,HTTPS的端口号为:443。

  • HTTP的请求与响应

使用chrome浏览器的开发者模式能够清晰地观察HTTP的请求与响应过程。以访问http://www.baidu.com为例,来观察浏览器与服务器之间的交互过程,在浏览器页面右键选择检查,打开浏览器的开发者工具。选择network就可以看到发送请求与接收响应的过程。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值