爬虫基础02—Beautiful Soup

Top Secret

已于 2022-06-18 14:01:35 修改

阅读量923

点赞数 1

分类专栏： python数据分析与数据处理文章标签：爬虫 python 开发语言

于 2022-01-15 22:05:39 首次发布

本文链接：https://blog.csdn.net/m0_55196097/article/details/122511329

版权

python数据分析与数据处理专栏收录该内容

22 篇文章 6 订阅

订阅专栏

1. 什么是Beautiful Soup

2. 安装与使用

3.解析器的分类

3.2、NavigableString 获取标签的内容

3.3、Beautifulsoup

3.4、Comment 注释

3.5 CSS选择器

4.BeautifulSoup应用实例演示(爬豆瓣)

（1）将爬取的页面html信息以text的形式打印：

（2）利用Beautifusoup解析页面:

1. 什么是Beautiful Soup

简单来说，Beautiful Soup是python的一个库，最主要的功能是从网页抓取数据。官方解释如下:

Beautiful Soup提供一些简单的、python式的函数用来处理导航、搜索、修改分析树等功能。它是一个工具箱，通过解析文档为用户提供需要抓取的数据，因为简单，所以不需要多少代码就可以写出一个完整的应用程序。

Beautiful Soup自动将输入文档转换为Unicode编码，输出文档转换为utf-8编码。你不需要考虑编码方式，除非文档没有指定一个编码方式，这时，Beautiful Soup就不能自动识别编码方式了。然后，你仅仅需要说明一下原始编码方式就可以了。

Beautiful Soup已成为和lxml一样出色的python解释器，为用户灵活地提供不同的解析策略或强劲的速度。Beautiful Soup支持Python标准库中的HTML解析器,还支持一些第三方的解析器，如果我们不安装它，Python 会使用 Python默认的解析器，lxml 解析器更加强大，速度更快，推荐安装。

https://www.lfd.uci.edu/~gohlke/pythonlibs/ python二进制非官方包

下载对应的lxml解释器：

python3.7对应如下，下载后将其放入python的包中，进行安装：

也可以再terminal下运行：

pip install lxml -i https://pypi.tuna.tsinghua.edu.cn/simple

pip install 名字.whl

pip install bs4 -i https://pypi.tuna.tsinghua.edu.cn/simple

（虚拟环境需要到venv的安装目录下安装）

2. 安装与使用

1、安装pip install bs4

2、使用

首先必须要导入 bs4 库，创建BeautifulSoup对象

from bs4 import BeautifulSoup as BS

Requests 结合使用

from bs4 import BeautifulSoup as BS

text = '''

<html>

<head>

    <meta = charset='UTF-8' >

    <title id =1 href = 'http://example.com/elsie' class = 'title'>Test</title>



</head>

<body>

   <div class = 'ok'>

       <div class = 'nice'>

           <p class = 'p'>

               Hello World

           </p>

            <p class = 'e'>

               风一般的男人

           </p>

       </div>

   </div>

</body>

</html>

'''
soup = BS(text, 'html.parser')  # 解析器
print(type(soup))
print(soup.title)  # 获取title标签
print(soup.title.name)  # 获取标签的名字
print(soup.title.text)  # 获取文本text
print(soup.title.attrs)  # 获取属性字典

print(soup.title.string)  # 获取文本text
print(soup.div.p.text.lstrip())  # 第一获取标签的文本（这打印的是第一个p标签）
"""
D:\Anaconda3\python.exe D:/Python_file_forAnconda3_python/爬虫/BeautifulSoup_01.py
<class 'bs4.BeautifulSoup'>
<title class="title" href="http://example.com/elsie" id="1">Test</title>
title
Test
{'id': '1', 'href': 'http://example.com/elsie', 'class': ['title']}
Test
Hello World

           

Process finished with exit code 0

"""

分析：

（1） soup = BS(text, 'html.parser') # 解析器，其中将整个html文件作为text的内容，可见，Beautiful Soup对html起到了解析的作用。

（2）对于如上html中，假如要打印出"风一般的男子"，则代码为：

soup = BS(text, 'html.parser')  # 解析器
print(soup.find('p',class_='e').text.lstrip()) #lstrip()是去左边空格

（3）print(soup.find_all('p',class_='e')) 返回一个列表，

soup = BS(text, 'html.parser')  # 解析器
print(soup.find_all('p',class_='e'))

"""
[<p class="e">

               风一般的男人

           </p>]
"""

打印：

soup = BS(text, 'html.parser')  # 解析器
#print(soup.find_all('p',class_='e'))
result = soup.find_all('p',class_='e')
for i in result:
    print(i.text.strip())

"""
D:\Anaconda3\python.exe D:/Python_file_forAnconda3_python/爬虫/BeautifulSoup_01.py
风一般的男人
"""

(4)select()方法

print(soup.select('.p')[-1].text.lstrip())
print(soup.select('.p')[0].text.lstrip())

"""
D:\Anaconda3\python.exe D:/Python_file_forAnconda3_python/爬虫/BeautifulSoup_01.py
Hello World

           
Hello World
"""

3.解析器的分类

什么是网页解析器，简单的说就是用来解析html网页的工具，准确的说：它是一个HTML网页信息提取工具，就是从html网页中解析提取出“我们需要的有价值的数据”或者“新的URL链接”的工具。

解析器	使用方法	优势	劣势
Python标准库	BeautifulSoup(markup, “html.parser”)	Python的内置标准库执行速度适中文档容错能力强	(Python 2.7.3 or 3.2.2)前的版本中文档容错能力差
lxml HTML 解析器	BeautifulSoup(markup, “lxml”)	速度快文档容错能力强	需要安装C语言库
lxml XML 解析器	BeautifulSoup(markup, [“lxml”, “xml”]) BeautifulSoup(markup, “xml”)	速度快唯一支持XML的解析器	需要安装C语言库
html5lib	BeautifulSoup(markup, “html5lib”)	最好的容错性以浏览器的方式解析文档生成HTML5格式的文档	速度慢不依

Tag 就是Html中的标签，包含name和attrs

我们可以利用 soup加标签名轻松地获取这些标签的内容，是不是感觉比正则表达式方便多了？不过有一点是，它查找的是在所有内容中的第一个符合要求的标签，如果要查询所有的标签，我们在后面进行介绍。

#获取title标签

print(soup.title)

#获取标签的名字

print(soup.title.name)

#获取标签的内容

print(soup.title.text)

#获取标签的属性

print(soup.title.attrs)

#指定标签的某个属性

print(soup.title.get('class'))