scrapy爬虫选择器css选择器、xpath选择器

1.css选择器

css即层叠样式表, 用来确定html中某部分位置的语言。
css选择器语法

css选择器在找节点上比较方便,css选择器不如xpath选择器强大,但获取标签的属性值较困难。

2.xpath选择器

xpath即xml路径语言,是一种用来确定xml文档(html是xml的子集)中某部分位置的语言。
xml是一系列节点构成的树型结构,xpath就是通过找节点来定位元素的。
html的源码(树形结构)
xml的节点主要有4种

  • 根节点(整个树的根)
  • 元素节点 (标签节点 如 html、div等)
  • 属性节点 (标签的属性 如 href、class等)
  • 文本节点 (标签包围的字符串 如 div、a等标签包含的文本内容)

xml节点间的几种关系

<html>
   <body>
   		<div class="book">123<div>
   		<a href="http://www.baidu.com">百度<a>
   </body>
</html>
... '''
  • 父子 (当一个html标签中包含另一个html标签时,外、内标签为父、子节点 如:html标签(父)和body标签(子))
  • 兄弟 (同一个标签下相同的两个标签互为兄弟标签 如:div和a标签互为兄弟)
  • 祖先/后裔 (与父子标签类似但标签的包含关系超过一级,标签内部相对于外部的称为后裔,外部相对于内部称为祖先 如:html是div的祖先,div是html的后裔)
    xpath选择器语法
    xpath选择器语法
    // 通常用来表示跳越多个层次的节点(可以理解为可以省略前面n多个节点直接进入内节点)
    / 用来表示下一级(必须是下一级紧邻的标签)
    示例可以参考xpath安装与使用的使用部分。
    xpath工具(XPath Helper) 这是一个谷歌插件,可以用来检查表达式的书写是否正确,方便检查和调整xpath表达式。xpath安装与使用点此
  • 0
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值