python爬虫--BeautifulSoup

最新推荐文章于 2018-11-06 09:58:09 发布

bh_xiaoxinba

最新推荐文章于 2018-11-06 09:58:09 发布

阅读量258

点赞数

分类专栏：爬虫 python

本文链接：https://blog.csdn.net/bh_xiaoxinba/article/details/75213279

版权

爬虫同时被 2 个专栏收录

9 篇文章 0 订阅

订阅专栏

python

9 篇文章 0 订阅

订阅专栏

BeautifulSoup 是一个可以从HTML或XML文件中提取数据的Python；
1、导入
from bs4 import BeautifulSoup
soup = BeautifulSoup(html)

2、对象
Beautiful Soup将复杂HTML文档转换成一个复杂的树形结构,每个节点都是Python对象,所有对象可以归纳为4种:
Tag , NavigableString , BeautifulSoup , Comment.

1）Tag
HTML 中的一个个标签；

#当用tag作为搜索条件时，我们获取的包含这个tag块的剖析树：
#<tag><xxx>ooo</xxx></tag>
#这里获取head这个块
head = soup.find('head')
# or
# head = soup.head
# or
# head = soup.contents[0].contents[0]

2）NavigableString
Beautiful Soup用 NavigableString 类来包装tag中的字符串:

3）BeautifulSoup
BeautifulSoup 对象表示的是一个文档的全部内容.大部分时候,可以把它当作 Tag 对象，是一个特殊的 Tag，我们可以分别获取它的类型，名称，以及属性；

参考：https://www.crummy.com/software/BeautifulSoup/bs4/doc/index.zh.html

bh_xiaoxinba

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
python爬虫--BeautifulSoup

BeautifulSoup 是一个可以从HTML或XML文件中提取数据的Python； 1、导入 from bs4 import BeautifulSoup bs = BeautifulSoup(html) 2、对象 Beautiful Soup将复杂HTML文档转换成一个复杂的树形结构,每个节点都是Python对象,所有对象可以归纳为4种: Tag , NavigableString
复制链接

扫一扫

专栏目录