python网络爬虫(三):Beautiful Soup库

一,安装
命令行进入python.exe文件所在目录,输入pip install bs4

二…Beatiful Soup库简介
以HTML文件为例,它的源代码由一组尖括号构成的标签组织起来的。每一对尖括号形成一个标签,而标签之间存在上下游关系,形成一个便签数。所以Beatiful Soup库是解析,遍历,维护“标签树”的功能库。

三…基本用法

from bs4 import BeautifulSoup%从bs4库中引入类BeautifulSoup
soup = BeautifulSoup('<p>data</p>','html.parser')

注意:BeautifulSoup是一个类,且分大小写。第一个参数是要解析的html格式的信息,后一个是解析器。
执行后BeautifulSoup对应一个HTML/XML文档的全部内容,编码方式都为utf-8编码。

四.BeatifulSoup类的基本元素

基本元素 说明
Tag 标签,最基本的信息组织单元,用<>和</>表明开头和结尾
Name 标签名字,上述尖括号里的内容。格式:<标签名>.name
Attributes 标签属性,字典形式组织,格式:<标签命>.attrs
NavigableString 标签内非属性字符串,<>…</>中字符串,格式:<标签名>.string
Comment 标签内字符串的注释部分,一种特殊的Comment类型

五.基于bs4库的HTML内容遍历方法
html和xml文件对应的树形结构如下:

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值