bs4解析原理:
实例化一个BeautifulSoup的对象,且将待解析的页面源码数据加载到该对象中
调用BeautifulSoup对象中相关方法或者属性进行标签定位和文本数据的提取
环境安装:
pip install lxml#解析器
pip install bs4
BeautifulSoup对象的实例化:
BeautifulSoup(fp,‘lxml’):用来将本地存储的html文档中的数据进行解析
BeautifulSoup(page_text,‘lxml’):用来将互联网上请求到的页面源码数据解析解析
标签定位:
soup.tagName:只可以定位第一次出现的tagName标签
soup.find(‘tagName’,attrName=‘value’);属性定位
soup.findAll:跟find一样用作属性定位,只不过findall返回的是列表
soup.select(“选择器”)
-类选择器
-id选择器
-层级选择
->大于号:表示一个层级
->空格:表示多个层级
取数据
-.text #返回的是该标签下所有的文本内容
-.string #返回的是该标签直系下的文本内容
取属性
-tag[‘attrName’]