bs4只能用于python中
一、bs4进行数据解析
1、bs4进行数据解析的原理:
(1)标签定位
(2)提取标签、标签属性中存储的数据值
2、bs4实现数据解析的原理:
(1)实现化一个beautifulsoup对象,并且将页面源码数据加载到该对象中
(2)通过调用beautifulsoup对象中相关的属性或者方法进行标签定位和数据提取
3、环境安装(在cmd中安装)
pip install bs4
pip install lxml
4、如何实例化beautifulsoup对象
— from bs4 import BeautifulSoup #导入包
对象的实例化
(1)将本地的html文档中的数据加载到该对象中
fp = open('./test.html','r',encoding='utf-8')
soup = BeautifulSoup(fp,'lxml')
(2)将互联网上获取的页面源码加载到该对象中(通常使用第二种)
page_text = response.text
soup = BeautifulSoup(page_text,'lxml')
(3)提供的用于数据解析的方法和属性:
—soup.tagName:返回的是文档中第一次出现的tagName对应的标签
—soup.find():
find('tagName'):等同于soup.div
属性定位:soup.fin