5-BeautifulSoup的使用

最新推荐文章于 2021-02-09 01:22:36 发布

-admin-

最新推荐文章于 2021-02-09 01:22:36 发布

阅读量404

点赞数

分类专栏： Python3网络爬虫文章标签： Python3网络爬虫 Python3网络爬虫

本文链接：https://blog.csdn.net/flyingkitty_/article/details/105882432

版权

Python3网络爬虫专栏收录该内容

7 篇文章 0 订阅

订阅专栏

【Python3网络爬虫】5-BeautifulSoup的使用

简介

BeautifulSoup最主要的功能是从网页抓取数据，Beautiful Soup自动将输入文档转换为Unicode编码，输出文档转换为utf-8编码。BeautifulSoup支持Python标准库中的HTML解析器,还支持一些第三方的解析器，如果我们不安装它，则 Python 会使用 Python默认的解析器，lxml 解析器更加强大，速度更快，推荐使用lxml 解析器。

安装

pip3 install beautifulsoup4

BeautifulSoup4主要解析器，以及优缺点：

解析器	使用方法	优势	劣势
Python标准库	BeautifulSoup(markup, “html.parser”)	Python的内置标准库执行速度适中文档容错能力强	Python 2.7.3 or 3.2.2)前的版本中文档容错能力差
lxml HTML 解析器	BeautifulSoup(markup, “lxml”)	速度快文档容错能力强	需要安装C语言库
lxml XML 解析器	BeautifulSoup(markup, [“lxml”, “xml”])BeautifulSoup(markup, “xml”)	速度快唯一支持XML的解析器	需要安装C语言库
html5lib	BeautifulSoup(markup, “html5lib”)	最好的容错性以浏览器的方式解析文档生成HTML5格式的文档	速度慢不依赖外部扩展

注意：

lxml 和html5lib需要安装
pip install lxml
pip install html5lib

BeautifulSoup4简单使用

import bs4

import requests
from fake_useragent import UserAgent

url = 'https://www.qiushibaike.com/text/page/{}/'
headers = {
    'User-Agent': UserAgent().chrome
}


def get_data(page):
    print("正在爬取第{}页".format(page))
    response = requests.get(url.format(page), headers=headers)
    return response.text

text = get_data(1)
bs = bs4.BeautifulSoup(text, "html.parser")
# 格式化html结构
print(bs.prettify())
# 获取title标签的名称
print(bs.title)
# 获取title的name
print(bs.title.name)
# 获取title标签的内容
print(bs.title.string)
# 获取head标签的所有内容
print(bs.head)
# 获取第一个div标签中的所有内容
print(bs.div)
# 获取第一个div标签的id的值
print(bs.div["id"])
print(bs.a)
# 获取所有的a标签
print(bs.find_all("a"))
# 获取id="u1"
print(bs.find(id="u1"))
# 获取所有的a标签，并遍历打印a标签中的href的值
for item in bs.find_all("a"):
    print(item.get("href"))
# 获取所有的a标签，并遍历打印a标签中的内容
for item in bs.find_all("a"):
    print(item.get_text())

BeautifulSoup4四大对象种类

BeautifulSoup4将复杂HTML文档转换成一个复杂的树形结构,每个节点都是Python对象,所有对象可以归纳为4种:

Tag
NavigableString
BeautifulSoup
Comment

Tag

简而言之，就是html的一个个标签

我们可以利用 soup 加标签名轻松地获取这些标签的内容，这些对象的类型是bs4.element.Tag。但是注意，它查找的是在所有内容中的第一个符合要求的标签。

对于 Tag，它有两个重要的属性，是 name 和 attrs：

# 获取title标签的名称
print(bs.title)
# 获取title的name
print(bs.title.name)
# 获取title标签的内容
print(bs.title.string)
# 获取head标签的所有内容
print(bs.head)

from bs4 import BeautifulSoup 
file = open('./aa.html', 'rb') 
html = file.read() 
bs = BeautifulSoup(html,"html.parser") 
# [document] #bs 对象本身比较特殊，它的 name 即为 [document]
print(bs.name) 
# head #对于其他内部标签，输出的值便为标签本身的名称
print(bs.head.name) 
# 在这里，我们把 a 标签的所有属性打印输出了出来，得到的类型是一个字典。
print(bs.a.attrs) 
#还可以利用get方法，传入属性的名称，二者是等价的
print(bs.a['class']) # 等价 bs.a.get('class')
# 可以对这些属性和内容等等进行修改
bs.a['class'] = "newClass"
print(bs.a) 
# 还可以对这个属性进行删除
del bs.a['class'] 
print(bs.a)

NavigableString

既然我们已经得到了标签的内容，那么问题来了，我们要想获取标签内部的文字怎么办呢？很简单，用 .string 即可

BeautifulSoup

BeautifulSoup对象表示的是一个文档的内容

Comment

Comment 对象是一个特殊类型的 NavigableString 对象

遍历文档树

-admin-

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
5-BeautifulSoup的使用

【Python3网络爬虫】5-BeautifulSoup的使用简介BeautifulSoup最主要的功能是从网页抓取数据，Beautiful Soup自动将输入文档转换为Unicode编码，输出文档转换为utf-8编码。BeautifulSoup支持Python标准库中的HTML解析器,还支持一些第三方的解析器，如果我们不安装它，则 Python 会使用 Python默认的解析器，lxml ...
复制链接

扫一扫