python3 BS4 BeautifulSoup 解析的一些解析（迷惑点）

最新推荐文章于 2024-10-08 17:22:19 发布

妖白

最新推荐文章于 2024-10-08 17:22:19 发布

阅读量7.5k

点赞数 3

分类专栏： python3爬虫

本文链接：https://blog.csdn.net/qq_24753293/article/details/78475328

版权

python3爬虫专栏收录该内容

4 篇文章 0 订阅

订阅专栏

1 BeautifulSoup

只要目标信息的旁边或者附近有标签就可以调用，，不用管是几层标签（父辈后代辈的都可以）。

Soup.html.body.h1

Soup.body.h1

Soup.html.h1

Soup.h1

索引的效果都是同一个内容。

但是应该把重要的标签包含进去，以免过于简单爬到不想要的内容。

<li>

</li>

在这里的li 和 div都是标签用法可以soup.li soup.div

而aria-label class role是属性用法则区别于标签，引用用div.attrs

比如 list=soup.findAll(“div”,{“role”:”img”})

div是标签而大括号里面的role和img是改标签下的类的属性

同样等价于

list=soup.findAll(“div”,attrs= “role”:”img”})

3注意下find与findAll的用法

soup.div.findAll("img") 会找到第一个div标签中的全部img 并不是全部div标签的img

soup.div.find_next("div").findAll('img')说明是找到第二div标签中的所有img

bs4的数据类型

Tga标签

最基本的信息组织单元，分别用<>和</>标明开头和结尾

例如：

from bs4 import BeautifulSoup
import requests
r = requests.get("https://python123.io/ws/demo.html")
demo = r.text

soup=BeautifulSoup(demo,"html.parser")
print(soup.title)

print(soup.a)

输出为

<title>This is a python demo page</title>

<a class="py1" href="http://www.icourse163.org/course/BIT-268001" id="link1">Basic Python</a>

任何存在于HTML语法中的标签都可以用soup.<tag>访问获得
当HTML文档中存在多个相同<tag>对应内容时，soup.<tag>返回第一个

类型 <class 'bs4.element.Tag'>

Tag的name

name 标签的名字，<p>…</p>的名字是'p'，格式：<tag>.name

例子：

from bs4 import BeautifulSoup
import requests
r = requests.get("https://python123.io/ws/demo.html")
demo = r.text
soup=BeautifulSoup(demo,"html.parser")

print(soup.a.name)

print(soup.a..parent.name)

输出为 “a”

“p”

每个<tag>都有自己的名字，通过<tag>.name获取

字符串类型<class 'str'>

Tag的attrs（属性）

Attributes：标签的属性，字典形式组织，格式：<tag>.attrs

例子：

from bs4 import BeautifulSoup
import requests
r = requests.get("https://python123.io/ws/demo.html")
demo = r.text
soup=BeautifulSoup(demo,"html.parser")

tag=soup.a

print(tag.attrs)

print(tag.attrs['class'])

输出为：

{'href': 'http://www.icourse163.org/course/BIT-268001', 'id': 'link1', 'class': ['py1']}
['py1']

一个<tag>可以有0或多个属性

字典类型<class 'list'>

Tag的NavigableString

NavigableString：标签内非属性字符串，<>…</>中字符串，格式：<tag>.string

from bs4 import BeautifulSoup
import requests
r = requests.get("https://python123.io/ws/demo.html")
demo = r.text
soup=BeautifulSoup(demo,"html.parser")

print(soup.a.string)

soup.a为

<a class="py1" href="http://www.icourse163.org/course/BIT-268001" id="link1">Basic Python</a>

输出为 Basic Python NavigableString可以跨越多个层次

类型：<class 'bs4.element.NavigableString'>

Tag的Comment

Comment：标签内字符串的注释部分，一种特殊的Comment类型

类型为<class 'bs4.element.Comment'>

例子：

newsoup=BeautifulSoup("<b></b><p>This is not a conment</p>","html.parser")
print(newsoup.b.string)

输出为

This is a conment

类型为 <class 'bs4.element.Comment'>

可见并不是标签<b blalal /b>

而是直接<b> 所以他不是一个标签类型而是comment

总结：

这里我们要注意遍历html树的时候几个特殊的输出类型

注意到 soup.children返回的类型是一个迭代器并不能用BeautifukSoup的方法进行检索了。

而且需要注意到的是soup.findAll(```)返回的也是一个set迭代如果再利用BearutifulSoup方法索引

可能就会出现错误比如a.attrs["td"]

正确的表达方式应该用列表或者迭代器的方法 a("td")

更加注意 soup.find 和findAll有很大的区别 find找的是标签 findAll找的是set

妖白

关注

3
点赞
踩
18

收藏

觉得还不错? 一键收藏
1
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录