HTML文本转DOM树的两种方式
1、使用lxml.etree
from lxml import etree
html = etree.HTML(html_text)
html.xpath("//div[@class='tabslider']/ul")
2、使用scrapy团队开源的parsel库(推荐)
from parsel import Selector
# 构建DOM树
html = Selector(text=html_text or xml_text)
'''
解析结果的获取,只适用于parsel解析
'''
# 返回单个字符串
html.xpath("...").get()
html.xpath("...").extract_first()
# 返回结果列表
html.xpath("...").getall()
html.xpath("...").extract()
# 获取节点属性
html.xpath("...").attrib # 返回字典
html.xpath("...").attrib["href"] # 获取属性值
# 使用正则进行截取
html.xpath("...").re_first("\d+")
爬虫一般都是使用requests库获取网页源码,再使用xpath进行解析,有时候会遇到乱码问题,可以尝试如下方式: