BS4解析
数据解析的原理,标签的定位,提取标签,标签属性中储存的数据值
bs4数据解析的原理
1.实例一个Beautifulsoup对象,并且将页面源码数据加载到该对象中
2.通过调用Beautifulsoup对象中相关的属性或者方法进行标签定位和数据提取
编码流程以及问题
1.如何实例化BS4对象
from bs4 import BeautifulSoup
对象的实例化:
1.将本地的HTML文件的数据加载到该对象中
fp=open('./sogou.html','r',encoding='utf-8')
soup = BeautifulSoup(fp,'lxml')
2.将互联网上获取的页面源码加载到该对象中
page_text = response.text
soup = BeautifulSoup(page_text,'lxml')
2.Bs4中所提供的相关方法与属性
1.定位标签
soup.tagname:返回的是文件中第一次出现的标签名
soup.find(‘div’):1.等同于soup.div
2.属性定位suop.find(‘div’,class_/id等=‘song’)
soup.find_all(‘a’):找到符合标注的所有标签
soup.select(’.某种选择器’),返回的是一个列表
soup.select(’.tang > ul > li > a’) 【0】返回的是一个列表,极为列表中的第一个元素 层级选择器的应用(>一个层级)(空格表示多个层级)
2.标签中的数据提取(获取文本数据)
soup.a.text /string/get_text()
.text/get_text() 可以获取某个标签下面的全部内容
string只能获取直系的文本内容
soup.a[‘href’]查看属性