BeautifulSoup库像煲汤,html解析遍历维护"标签树"html的功能库;from bs4 import BeautifulSoup
import requests
r=requests.get("http://python123.io/ws/demo.html")
r.text
demo=r.text
from bs4 import BeautifulSoup
soup=BeautifulSoup(demo,'html.parser')
print(soup.prettify())
需要看那个页面,将需要的页面soup煲汤;soup=BeautifulSoup(需要修改的值,“html.parser”)
soup.title查看当前页面的标题
tag=soup.a ---->tag 查出所有a标签
soup.a.name=查看a标签的名字 a
soup.a.parent.name 'p’包含a标签的上层标签
soup.a.parent.parent.name 'body' p的父亲时body
产看标签属性:tag.attrs
tag.attrs[‘href’]:查看标签具体类型
type(tag):查看标签类型
soup.a.string:查看a标签内容 简括号之间的内容
soup.p.string:查看p标签内容