简单的网页爬虫开发

📼网络连接与爬虫原理
在这里插入图片描述
网络连接

  • Client向Server发起一次Request(包含Header和Messge)
  • Server向Client返回一个Response(包含相应的HTML文件)

爬虫原理

  • 模拟Client向Server发起Request请求
  • 接收Server的Response并解析、提取所需信息

📼简单的网页爬虫开发
爬虫开发中常用的第三方库

  • 💡Requests库
    请求网站获取网页数据(HTTP,HyperText Transfer Protocol).
    比Python自带的urlib库更加简单、方便和人性化.
    用法:import requests
  • 💡BeautifulSoup库
    用于解析Requests库请求的网页,并把网页源代码解析成Soup文档,以便过滤提取数据.
    用法:from bs4 import BeautifulSoup
  • 💡Lxml库
    用于解析网页数据,是基于libxml2这个XML解析库的Python封装.
    使用C语言编写,解析速度比BeautifulSoup更快.

🔑Requests库

  • 🌿Requests库安装
>>>pip3 install reuqests

使用
浏览器来访问网页,看起来只需要输入网址即可.但其实网页有很多中打开方式,最常见的是GET方式和POST方式.
在浏览器里面可以直接通过输入网址访问的页面ÿ

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值