1.安装lxml
2.导入lxml.etree
3.etree.parse解析本地文件
4.etree.HTML服务器响应文件
Xpath基本:
text()获取标签的内容
1.路径查询
//:查找所有子孙节点,不考虑层级关系
/:找直接子节点
2.谓词查询
//div[@id]
//div[@id='main']
3.属性查询
//@class
4.模糊查询
//div[contains=(@id,'he')]
//div[starts-with(@id,'he')]
5.内容查询
//div/h1/text()
6.逻辑运算
//div[@id='head', and class = 's_down']
//title | //price
from lxml import etree
#解析本地文件
tree = etree.parse('a.html')
li_list =tree.xpath('//body/table/tr/td/text()')
print(li_list)
#解析服务器文件
# etree.HTML()