网络爬虫之数据解析
XPath与lxml库
XPath基本语法
1、选取结点
2、谓语
3、通配符
使用方式
XPath使用方式:
使用 // 获取整个页面当中的元素,然后写标签名,然后再写谓语进行提取
# 使用lxml库解析HTML代码:
# 1、解析HTML字符串
html = etree.HTML(text)
# 2、解析HTML文件
# 指定解析器,默认为XML解析器
parser = etree.HTMLParser(encoding='utf-8')
html = etree.parse("index.html", parser=parser)
# 1、获取所有tr标签
trs = html.xpath("//tr")
# 2、获取第二个tr标签
trs = html.xpath("//tr[2]")
# 3、获取所有class等于even的tr标签
trs = html.xpath("//tr[@class='even']")
# 4、获取所有a标签的href属性
a = html.xpath("//a/@href")
注意事项
BeautifulSoup4库
主要的解析器:
soup = BeautifulSoup(html, 'lxml')
# 获取所有tr标签
trs = soup.find_all('tr')
# 获取第二个tr标签
trs = soup.find_all('tr', limit=