python3爬虫（二）-使用beautiful soup 读取网页

最新推荐文章于 2024-08-12 23:17:41 发布

changzoe

最新推荐文章于 2024-08-12 23:17:41 发布

阅读量9.6k

点赞数 2

分类专栏： python 爬虫文章标签： python

本文链接：https://blog.csdn.net/changzoe/article/details/79086053

版权

本文介绍了Python的BeautifulSoup库，主要用于网页数据抓取。讲解了BeautifulSoup的基本对象，包括Tag、NavigableString、BeautifulSoup和Comment，并详细阐述了如何遍历和搜索HTML文档树，包括find_all()方法的各种参数使用，如name、attrs、recursive、text和limit等。同时，还讨论了平行、上行和下行遍历HTML内容的方法。

摘要由CSDN通过智能技术生成

HTML常用标签

Beautiful Soup简介

简单来说，Beautiful Soup是python的一个库，最主要的功能是从网页抓取数据。官方解释如下：

Beautiful Soup提供一些简单的、python式的函数用来处理导航、搜索、修改分析树等功能。它是一个工具箱，通过解析文档为用户提供需要抓取的数据，因为简单，所以不需要多少代码就可以写出一个完整的应用程序。

Beautiful Soup自动将输入文档转换为Unicode编码，输出文档转换为utf-8编码。你不需要考虑编码方式，除非文档没有指定一个编码方式，这时，Beautiful Soup就不能自动识别编码方式了。然后，你仅仅需要说明一下原始编码方式就可以了。

Beautiful Soup已成为和lxml、html6lib一样出色的python解释器，为用户灵活地提供不同的解析策略或强劲的速度。

Beautiful Soup四大对象

Beautiful Soup将复杂HTML文档转换成一个复杂的树形结构,每个节点都是Python对象,所有对象可以归纳为4种:

Tag
NavigableString
BeautifulSoup
Comment

创建Beautiful Soup对象

from bs4 import BeautifulSoup
from urllib import request

html = request.urlopen("https://movie.douban.com/")  
bs=BeautifulSoup(html,"lxml")    #将html对象转化为BeautifulSoup对象

Tag

Tag通俗点讲就是HTML中的一个个标签，下面我们来感受一下怎样用 Beautiful Soup 来方便地获取 Tags。
我们可以利用 soup加标签名轻松地获取这些标签的内容，是不是感觉比正则表达式方便多了？不过有一点是，它查找的是在所有内容中的第一个符合要求的标签

print(bs.title)

<title>
        豆瓣电影
</title>

print(bs.head)

只写一部分返回

<head>
<meta content="text/html; charset=utf-8" http-equiv="Content-Type"/>
<meta content="webkit" name="renderer"/>
<meta content="always" name="referrer"/>
<title>
        豆瓣电影
</title>
<meta content="cZdR4xxR7RxmM4zE" name="baidu-site-verification"/>
<