python环境下使用xpath

xpath用于定位网页元素,可以理解为选择器.

在python里可以使用正则表达式,BeautifulSoup,xpath,css选择想要的html元素

这里先介绍下xpath的使用,目前比较倾向使用xpath

xpath使用非常简单啦,

例子:中国天气网http://www.weather.com.cn/weather1d/101020100.shtml#search

要选取html元素,就先观察分析html页面:

假如我们要选取城市名称,在html里找找,打开网页按F12使用开发者界面,如上图.

在开发者模式下可以看到html界面元素和代码的映射,方便查找.

------------------------------------------------------------------------------------

下面我们获取html里的信息:

In [1]: response.xpath("//div[@class='crumbs fl']/span[2]/text()")
Out[1]: [<Selector xpath="//div[@class='crumbs fl']/span[2]/text()" data='城区'>]

In [2]: response.xpath("//div[@class='crumbs fl']/span[2]/text()").extract_first()
Out[2]: '城区'

In [3]: response.xpath("//div[@class='crumbs fl']/span[2]/text()").extract()
Out[3]: ['城区']

In [4]: response.xpath("//div[@class='crumbs fl']/a/text()").extract_first()
Out[4]: '上海'

可以看到xpath是依靠路径path来定位元素,

span[2]表示这个class='crumbs f1'的div下的第二个span块

如果这个div块下只有一个span则直接span即可

例如div块下只有一个a标签则直接用"//div[@class='crumbs fl']/a/text()"来选取.

----------------------------------------------------------------------------------

补充:xpath获取标签属性:

使用@就行:

 

 

  • 3
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值