Python contents / children / descendants 区别

最新推荐文章于 2024-05-26 12:17:40 发布

人中鬼谷子

最新推荐文章于 2024-05-26 12:17:40 发布

阅读量2.7k

点赞数 4

分类专栏： Children 文章标签： Children

Children 专栏收录该内容

1 篇文章 0 订阅

订阅专栏

先说说导航树：

# Navigating Trees 导航树：

The findAll function is responsible for finding tags based on their name and attribute.

（依靠标签的名称和属性来查找标签）

但是如果你需要通过标签在文档中的位置来查找标签，该怎么办？

某HTML文件就可以映射成为这样一棵具有明确亲子关系的树：

html

— body

— div.wrapper

— h1

— div.content

— table#giftList

— tr

— th

— th

— th

— th

— tr.gift#gift1

— td

.......

一般BeautifulSoup函数总是处理当前标签的后代标签，例如：bs0bj.body.h1，

类似的，bs0bj.div.findAll("img")会找出文档中第一个div标签，然后获取这个div后代里的所有img标签列表。

可是如果你只是想找出子标签：可以用 .children ：

>> from urllib.request import urlopen

>> from bs4 import BeautifulSoup

>> html = urlopen("www.pyth..ng.com/pages/page3.html")

>> bsObj = BeautifulSoup(html)

>> for child in bsObj.find("table",{"id":"giftList"}).children:

>> print(child)

This code prints out all of the list of product rows in the giftList table

(table giftlist下所有的直接子标签的内容包括标签/属性/文字/)

# 注意 .contents / .children / .descendants(后代) 的区别：

tag的 .contents 属性可以将tag的子节点以列表的方式输出:

>>>head_tag

<head><title>The Dormouse's story</title></head>

>>>head_tag.contents

<title>The Dormouse's story</title>

>>>title_tag = head_tag.contents[0]

>>>title_tag.contents

The Dormouse's story

BeautifulSoup 对象本身一定会包含子节点,也就是说<html>标签也是 BeautifulSoup 对象的子节点:

soup.contents[0].name

# u'html'

字符串没有 .contents 属性,因为字符串没有子节点:

通过tag的 .children 生成器,可以对tag的子节点进行循环:

>>>for child in title_tag.children:

>>> print(child)

The Dormouse's story

综上 .contents 和 .children 属性仅包含tag的直接子节点 .

例如,<head>标签只有一个直接子节点(儿子)：<title>

>>>head_tag.contents

<title>The Dormouse's story</title>

但是<title>标签自身也包含一个子节点 : 字符串："The Dormouse’s story",

这种情况下字符串"The Dormouse’s story"属于<head>标签的子孙节点 .

.contents 和 .children并不能输出这个"孙节点" ,

而： .descendants 属性可以对所有tag的子孙节点进行递归循环 :

>>>for child in head_tag.descendants:

>>> print(child)

<title>The Dormouse's story</title>

The Dormouse's story

--------------------取材《Web scraping...》 / BeautifulSoup 官方文档。
---------------------
作者：Sodaoo
来源：CSDN
原文：https://blog.csdn.net/SoDaoo/article/details/70230128
版权声明：本文为博主原创文章，转载请附上博文链接！

人中鬼谷子

关注

4
点赞
踩
6

收藏

觉得还不错? 一键收藏
0
评论
Python contents / children / descendants 区别

先说说导航树：# Navigating Trees导航树：The findAll function is responsible for finding tags based on their name and attribute.（依靠标签的名称和属性来查找标签）但是如果你需要通过标签在文档中的位置来查找标签，该怎么办？某HTML文件就可以映射成为这样一棵具有明确亲子关系的...
复制链接

扫一扫

专栏目录

人中鬼谷子 CSDN认证博客专家 CSDN认证企业博客

码龄6年

9: 原创

19万+: 周排名

112万+: 总排名

5万+: 访问

: 等级

573: 积分

21: 粉丝

22: 获赞

7: 评论

116: 收藏

私信

关注

热门文章

分类专栏

最新评论

关于win10系统cmd命令失效
SimonForW: 第一种方法成功了，也想起来为什么突然出现这个故障了，是因为调试java的环境变量误删了原来的PATH 呜呜呜~~~
关于win10系统cmd命令失效
SYW#: 先用的第一个方法，没有用“管理员”而是直接打开的，没有成功，然后尝试的第二个方法，就成功了，也不知道第一个方法在其中有没有发挥作用，反正是成功了
python爬取天眼查企业详情页数据，天眼查爬虫
求企查查数据: 我需要M企业数据，联系我809499993@qq.com
python爬取天眼查企业详情页数据，天眼查爬虫
csuchen2019: with open('/Users/admin/Downloads/tianyancha/tianyancha/needs.csv')as g: 这个needs.csv文件是什么？

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。