xpath语法

BeautifulSoup 不支持XPath,lxml、Selenium、Scrapy 支持。

在XPath 语法中有四个重要概念。

根节点和非根节点

/div 选择 div 节点,只有当它是文档的根节点时

//div 选择文档中所有的 div 节点(包括非根节点)

通过属性选择节点

//@href 选择带 href 属性的所有节点

//a[@href='http://google.com'] 选择页面中所有指向 Google网站的链接

通过位置选择节点

//a[3] 选择文档中的第三个链接 //table[last()] 选择文档中的最后一个表

//a[position() < 3] 选择文档中的前三个链接

星号(*)匹配任意字符或节点,可以在不同条件下使用

//table/tr/* 选择所有表格行 tr 标签的所有的子节点(这很适合选择 th 和 td 标 签)

//div[@*] 选择带任意属性的所有 div 标签

XPath 语法:https://msdn.microsoft.com/en-us/enus/library/ms256471

# python2.7
from scrapy import Spider from tutorial.items import TutorialItem class TutorialSpider(Spider): name = "a" allowed_domains = ["cnblogs.com"] start_urls = ["https://www.cnblogs.com/"] def parse(self,response): item = TutorialItem() title = response.xpath('//*[@id="post_list"]/div[3]/div[2]/h3/a/text()')[0].extract() print "Title is: " + title item['title'] = title return item

xpath也可以通过下面的方法获取:

 

转载于:https://www.cnblogs.com/zhouwp/p/8316866.html

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值