简单的网页爬虫开发

最新推荐文章于 2023-09-13 17:49:40 发布

Libra_Ng

最新推荐文章于 2023-09-13 17:49:40 发布

阅读量227

点赞数

分类专栏： Python 文章标签： Requests库爬虫常见的搜索算法

本文链接：https://blog.csdn.net/weixin_43291459/article/details/105338225

版权

📼网络连接与爬虫原理
在这里插入图片描述
网络连接

爬虫原理

📼简单的网页爬虫开发
爬虫开发中常用的第三方库

💡Requests库
请求网站获取网页数据(HTTP,HyperText Transfer Protocol).
比Python自带的urlib库更加简单、方便和人性化.
用法：import requests
💡BeautifulSoup库
用于解析Requests库请求的网页，并把网页源代码解析成Soup文档，以便过滤提取数据.
用法：from bs4 import BeautifulSoup
💡Lxml库
用于解析网页数据，是基于libxml2这个XML解析库的Python封装.
使用C语言编写，解析速度比BeautifulSoup更快.

🔑Requests库

>>>pip3 install reuqests

使用
浏览器来访问网页，看起来只需要输入网址即可.但其实网页有很多中打开方式，最常见的是GET方式和POST方式.
在浏览器里面可以直接通过输入网址访问的页面ÿ

关注