大数据采集入门——网络爬虫技术——BeautifulSoup应用

本文介绍了Python的BeautifulSoup库,用于方便地从网页中提取数据。BeautifulSoup将HTML转换为树形结构,提供了导航、搜索和修改功能。文章详细讲解了安装、创建对象、解析文档树以及搜索文档树的步骤,包括使用CSS选择器进行选择操作。
摘要由CSDN通过智能技术生成

BeautifulSoup应用

Beautiful Soup提供一些简单的、Python式的函数来处理导航、搜索、修改分析树等功能。它是一个工具箱,通过解析文档为用户提供需要抓取的数据,因为简单,所以不需要多少代码就可以写出一个完整的应用程序。它借助网页的结构和属性等特性来解析网页。有了它,我们不用再去写一些复杂的正则表达式,只需要简单的几条语句,就可以完成网页中某个元素的提取。Beautiful Soup就是Python的一个HTML或XML的解析库,可以用它来方便地从网页中提取数据。
Beautiful Soup自动将输入文档,转换为Unicode编码,将输出文档自动转换为UTF-8编码。
【使用步骤】
① 安装

#导入beautifulsoup4库
pip install beautifulsoup4

② 创建BeautifulSoup对象

#方法一、直接通过字符串的形式创建
#使用python标准库的HTML解析器
soup=bs(html.read(),"html.parser")#html.parser是解析器,也可是lxml
print(soup.prettify()) ------>输出soup对象的内容
#方法二、通过已有的文件来创建
soup=BeautifulSoup(open('/home/index.html'),features='html.parser')#html.parser是解析器,也可是lxml

③ 解析BeautifulSoup对象
BeautifulSoup将复杂的HTML文档转化为一个复杂的树形结构,每个节点都是Python对象,所有对象都可以归纳为4种:Tag、NavigableString、BeautifulSoup、Commrnt。
(1)BeautifulSoup:表示的是一个文档的全部内容。大部分时候,可以把它当作Tag对象,是一个特殊的Tag,因为BeautifulSoup对象并不是真正的HTML和XML,所以没有name和attribute属性。
(2)Tag:就是HTML中的标签
语法】:BeautifulSoup对象名.标签名
可以利用soup加标签名轻松地获取这些标签的内容,其查找的是所有内容中的第一个符合要求的标签
举例】:

#抽取title标签
pri
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值