在使用 XPATH 爬取京东商品信息的是否,发现部分京东自营商品的定位地址和其他商品在层数上回不一样
比如说
特别的
//*[@id="J_goodsList"]/ul/li[14]/div/div/div[2]/div[1]/div[3]/a
一般的
//*[@id="J_goodsList"]/ul/li[8]/div/div[3]/a
可以发现
中间在li后面多了3层div
开始的思路是 用通配符. *
写成
//*[@id="J_goodsList"]/ul/li[@xxx=""]/*/div[@xxx=""]/a
后来发现* 只能指代1层,不能指代多层
经过思考,发现这样可以
//*[@id="J_goodsList"]/ul/li[@xxx=""]/*//div[@xxx=""]/a
也就是使用 */ 来指代多层