文章目录
使用Beautiful Soup解析库
简介
支持的解析器
基本用法
html ="""
<html id="html" manifest="offlintab.appcache">
<meta charset="utf-8">
<title>新标签页</title>
<base>
<link type="text/css" rel="stylesheet" href="/static/css/offlintab-468.css">
<script type="application/javascript" src="/static/js/offlintab-468.js"></script>
<body id="body">
"""
from bs4 import BeautifulSoup
soup = BeautifulSoup(html, 'lxml')
print(soup.prettify()) #把要解析的字符串以标准的缩进格式输出
print(soup.title.string) #输出HTML中title节点的文本内容
#soup.title可以选出HTML中的title节点,再调用string属性就可以得到里面的文本
节点选择器
说明:直接调用节点的名称就可以选择节点元素,再调用string属性就可以得到节点内的文本了,这种选择方式速度非常快。如果单个节点结构层次非常清晰,可以选用这种方式来解析。
提取信息
说明:包括选择元素、获取内容、获取名称、获取属性简单用法
代码说明:
html ="""
<a id="export-to" download="exported.json" hidden="true">
<title>新标签页</title>
<a id="setdefault" hidden="true">设为默认浏览器</a>
<p id="promo" hidden="true">
<button title="关闭"></button>
</a>
<nav id="navpane">
<a id="fx-accounts" hidden="true"></a>
<a data-pane="nav" title="切换至导航页">Nav</a>
<a data-pane="blank" title="切换至空白页">Blank</a>
</nav>
<footer id="footer">
<a href