一、bf4数据解析原理
1、数据解析原理:
-标签定位
-提取解析标签属性存储的数据值
2、bs4数据解析原理:
- 实例化beautifulSoup对象,并且将页面源码数据加载到该对象中
- 通过调用beautifulSoup对象中相关的属性或者方法进行标签定位和数据提取
3、实例化的两种方法
- 将本地html文档加载到该对象中
fp=open('./exclusion_bs4_test.html','r',encoding='utf-8')
soup=BeautifulSoup(fp,'lxml')
print(soup)
- 将互联网页面数据加载到对象中
page_text=response.text
soup=BeautifulSoup(page_text,'lxml')
4、根据页面元素的方法和属性定位
1)方法
- soup.tagName:返回的是文档中第一次出现的tagName的标签
tagName:div... - soup.find('div'):返回的是文档中第一次出现的div
- soup.find('div',class_/id/其他属性值='xx')定位class=xx/id=XX的div
- soup.findall() 返回符合要求的所有标签
- soup.select('某种选择器(id、class,标签选择器)'),返回的是一个列表
- 层级选择器:soup.sel