编写scrapy爬虫,处理items相关元素数据,涉及到selector, 整理备查。
目录
一、常用xpath使用方法
二、css语法
三、xpath选择器整理
四、css选择器整理
一、常用xpath使用方法:
xpath常用语法
/:根节点
//xxx/zzz:路径
//div:去全局的子孙中找所有的div元素
.//表示去当前对象的子孙中找
/xxx//div:去儿子对象中找xxx节点下所有的div元素
*:匹配任意节点元素
/html/body/div[1]:选取body下的第一个div节点
//div[@class="xxx"]:选取class属性为xxx的div节点
//@attr:获取attr对应的值
常用函数
text():提取文本信息,//*[@class='xxx']/text()
position():选取第几个节点,//*[position()=1]
last():选取最后一个节点,//*[last()]
starts-with(@attr,substr):attr属性值开头substr的节点
contains(@attr,substr):attr属性值是否包含substr
运算符
|:计算两个节点集合,比如//div|//li
比较运算符=,!=,<=...,比如//price[text()>10]
算数运算符:+,-,*,div,比如//price[text()+1]
逻辑运算符:or,and,[@class='xxxx' or @class='yyyy']
xpath语法案例:以取a标签为案例,div、span等都相同
xpath('//a'):找到全局中所有的a标签</