如何使用BeautifulSoup解析网页并获得所需网页信息
Python爬虫 - BeautifulSoup
(以下内容皆在Pycharm环境下)
BeautifulSoup 介绍
Beautiful Soup 是一个可以从HTML或XML文件中提取数据信息的Python库。由于 BeautifulSoup 是基于Python,相对来说速度会比 Xpath 慢点,但其功能也是非常的强大。
中文官网:https://www.crummy.com/software/BeautifulSoup/bs4/doc.zh/
BeautifulSoup 应用
工具包BeautifulSoup的安装和使用:
安装:pip install beautifulsoup4
使用:from bs4 import BeautifulSoup
BeautifulSoup的解析原理
将本地或者页面源码数据加载到bs对象中
通过调用对象属性或者方法进行标签定位和数据提取
相关实用代码汇总
HTML文件解析标签类型包括:html、head、body、div、p、a、ul、li等,所有的数据解析都是基于soup对象的,下面介绍各种解析数据的方法:
soup.tagName
返回的是该标签第一次出现的内容,以a标签为例:soup.a 或 soup.div
soup.find(‘tagName’), find()主要是有两个方法:
1)返回某个标签第一次出现的内容,等同于上面的soup.tagName
soup.find('a')
2)属性定位:用于查找某个有特定性质的标签
soup.find('a', id='谷歌')
如果遇到要查询class情况,需要使用class_来代替:
soup.find('div', class_='na