demo = ("http://python123.io/ws/demo.html").text
标签树遍历方式:
下行遍历:
.content() // 当前节点子节点的列表,将<tag>所有儿子节点存入列表
.children() // 子节点的迭代类型,循环编列儿子节点(类似content)
.descendants() // 获取当前节点所有后续节点的信息(迭代类型)
上行遍历,:
.parent 节点的父亲标签
.parents 节点所有先辈的标签(迭代类型)
遍历时会遍历到soup本身,其parent为None
祖先的父亲是自己
平行遍历:
.next_sibling / .next_siblings 返回HTML文本顺序的下一个平行节点标签 / 其迭代类型
.previous_sibling / .previous_sliblings 上一个 / 迭代
返回值可能是None, string, 标签
平行遍历必须发生在同一个父亲节点下,否则不行
soup.prettify() 对HTML文本的标签tag添加换行符,使得文本更容易阅读