一:Xpath的使用
安装lxml库
pip install lxml
1.提取所有节点或指定节点
result = html.xpath('//*) ('//li/)
2.提取子节点或者子孙节点
result = html.xpath('//li/a'). ('//ul//a')
3.提取父节点 首先选中href属性为link4.html的a节点,然后获取其父节点,再获取父节点的class属性
result = html.xpath('//a[@href="link4.html"]/../@class')
result = html.xpath('//a[@href="link4.html"]/parent::*/@class')
4. 属性匹配
Result = html.xpath('//li[@class = "item-0"]')
5.文本获取
Result = html.xpath('//li[@class = "item-o"/a/text()')
result = html.xpath('//li[@class = "item-o"//text()')
6.属性获取
Result = html.xpath('//li/a/@href')
7.属性多值匹配 第一个参数传入属性名称,第二个参数传入属性值
Result =html.xpath('//li[contains(@class,"li")]/a/text()')
8.多属性匹配 同时考察class 和name 的属性 class属性里面包含li字符串 name属性为item字符串
Result = html.xpath('//li[cotains(@class,"li')] and @name ="items']/a/text()')
9.按序选择
Result = html.xpath('//li[1]/a/text/()')
10.节点轴选择
result = html.xpath('//li[1]ancestor::*')