内容整理自中国大学MOOC——北京理工大学-蒿天-基于bs4库的HTML页面遍历方法
我们使用如下链接作为实验对象
https://python123.io/ws/demo.html
页面信息如下
利用requests库爬取出网页的HTML完整代码
1 importrequests2 r = requests.get("http://python123.io/ws/demo.html")3 demo =r.text4 print(demo)
网页内容如下
此处我们可以用prettify()属性使输出的HTML内容更整齐
print(soup.prettify())
【prettify()属性也可用于按格式输出指定标签下的相关内容】
熟悉HTML页面架构的都知道,HTML页面中有两大类标签,
和,这两类标签在当前HTML信息中都有展现。然后我们就可以根据HTML的格式架构&