📼网络连接与爬虫原理
网络连接
- Client向Server发起一次Request(包含Header和Messge)
- Server向Client返回一个Response(包含相应的HTML文件)
爬虫原理
- 模拟Client向Server发起Request请求
- 接收Server的Response并解析、提取所需信息
📼简单的网页爬虫开发
爬虫开发中常用的第三方库
- 💡Requests库
请求网站获取网页数据(HTTP,HyperText Transfer Protocol).
比Python自带的urlib库更加简单、方便和人性化.
用法:import requests
- 💡BeautifulSoup库
用于解析Requests库请求的网页,并把网页源代码解析成Soup文档,以便过滤提取数据.
用法:from bs4 import BeautifulSoup
- 💡Lxml库
用于解析网页数据,是基于libxml2这个XML解析库的Python封装.
使用C语言编写,解析速度比BeautifulSoup更快.
🔑Requests库
- 🌿Requests库安装
>>>pip3 install reuqests
使用
浏览器来访问网页,看起来只需要输入网址即可.但其实网页有很多中打开方式,最常见的是GET方式和POST方式.
在浏览器里面可以直接通过输入网址访问的页面ÿ