bs4解析
原理:
- 1.实例化一个BeautifulSoup对象,并且将页面源码数据加载到该对象中
- 2.通过调用BeautifulSoup对象中相关的属性或者方法进行标签定位和数据提取
如何实例化BeautifulSoup对象:
from bs4 import BeautifulSoup
BeautifulSoup(参数一,参数二)
参数一为文件描述符,参数二为解析器,一般为’lxml’
一对象的实例化:
- 1.将本地的html文档中的数据加载到该对象中
fp = open( './test.html','r',encoding='utf-8')
soup=BeautifulSoup(fp,'lxml')
- 2.将互联网上获取的页面源码加载到该对象中
page_text =response.text
soup=BeatifulSoup(page_text,'lxml')
soup指初始化的BeautifulSoup对象
用于数据解析的方法和属性:
1.soup.tagName:返回的是文档中第一次出现的tagName对应的标签
2.soup.find():
(1).find( ‘tagName’):等同于soup.tagName
(2).属性定位:soup.find(‘div’,class_/id/或者其他属性=‘song’)