python爬虫学习30

这篇博客介绍了Python中的Beautiful Soup库,用于解析HTML和XML文档。文章讲解了Beautiful Soup的基本概念,如何使用解析器,特别是lxml,以及基本的使用方法和节点选择器的应用。
摘要由CSDN通过智能技术生成

python爬虫学习30

六、Beautiful Soup 的使用

之前我们学过了 lxml库,今天我们一同学习Beautiful Soup库的使用

6-1 Beautiful Soup 简介

Beautiful Soup 是Python的一个HTML或XML的解析库,我们可以用它方便的从网页中提取数据。

它提供了一些简单的、python式的函数来处理导航、搜索、修改分析树等功能。beautiful soup自动将输入文档转换为Unicode编码,将输出文档转化为utf-8编码。

这时我们就不需要考虑编码的方式,只需要说明一下原始编码即可。

与lxml库一样,beautiful soup都是用来解析网页的python解释器。

6-2 解析器

beautiful soup 在解析时需要依靠解析器,他除了支持python标准库的HTML解析器,还支持一些第三方解析器(如lxml)。
在这里插入图片描述

使用前先进行安装:

pip3 install beautifulsoup4

下载的时候可能会超时,多试几次或者干脆挂个镜像

安装完成后,使用 bs4调用lxml解析器

# 解析器的调用
from bs4 import BeautifulSoup

soup = BeautifulSoup('<p>Hellow python</p>', 'lxml')
print(soup.p.string)

运行结果:

  • 5
    点赞
  • 33
    收藏
    觉得还不错? 一键收藏
  • 6
    评论
评论 6
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值