scrapy应用xpath语法
根据 HTML
语言的分段,每个标签作为xpath
的搜索关键词
如<body> <div> <a> <li> <ul> <p> <span>
等等各种类型
xpath
语法可以用分号做分隔符来区分标签
- 两个分号
//
是从全局目录开始往下找 - 分号前有个点
./
表示已经有父级目录了,从父级目录往下查找
但是最需要注意的是标签的属性值和标签下的内容
<a title = '这个部分'>...</a>
<a>以及这个部分</a>
下面将对这两个部分书写xpath
代码
读取标签下内容部分
div/a/text().get()
//首先锁定要查找的父标签
text=response.xpath("//div[@id='search_nature_rg']/ul[@class='bigimg']/li")
text.xpath("./p[@class='price']/span/text()").get()
读取标签属性值部分
//仍然要先锁定需要查找的父标签
text=response.xpath("//div[@id='search_nature_rg']/ul[@class='bigimg']/li")
text.xpath("./p[@class='name']/a/@title").get()