问题总结

最新推荐文章于 2024-05-20 16:16:36 发布

小海螺123

最新推荐文章于 2024-05-20 16:16:36 发布

阅读量191

点赞数

分类专栏：爬虫

本文链接：https://blog.csdn.net/jiangshaoxin1987/article/details/104215794

版权

2 篇文章 0 订阅

订阅专栏

一、高频 xpath

表达式	描述	相关链接
nodename	选取此节点的所有子节点	查看这篇文章
/	从根节点选取	查看这篇文章
//	从匹配选择的当前节点选择文档中的节点，而不考虑它们的位置	查看这篇文章
.	选取当前节点	查看这篇文章
…	选取父节点	查看这篇文章
@	选取属性	查看这篇文章
text()	选取文本

表达式	描述	相关链接
ancestor ancestor-or-self attribute child descendant descendant-or-self following following-sibling namespace parent preceding preceding-sibling self	轴可定义相对于当前节点的节点集	查看这篇文章

表达式	描述	相关链接
/bookstore/book[1] /bookstore/book[last()] /bookstore/book[last()-1] /bookstore/book[position() < 3] //title[@lang] //title[@lang=‘eng’] /bookstore/book[price>35.00] /bookstore/book[price>35.00]	谓语用来查找某个特定的节点或者包含某个指定的值的节点。谓语被嵌在方括号中	查看这篇文章

tbody标签仅得到所有主流浏览器的部分支持，所以就不要使用了！！！

例1
网站 http://www.c-c.com/uqyl/u6790719/ 抓取详情时，xpath中不要使用
//div[@class=‘ci-left’]//li[1]/b/text()，而应该使用
//div[@class=‘ci-left’]//li/span[contains(text(),‘联系人’)]/following-sibling::b/text()，使用li[1]这中方式去抓取不是很健壮。

以下提供的规则在rules_posterity库中

参考：all_wanguoshangwu_b2b3_sell_seeds
mongo搜索命令db.getCollection(‘rules_posterity’).find({’_id’:'all_wanguoshangwu_b2b3_sell_seeds '})

参考：all_wgb2b_wgb2b_sell_seeds
mongo搜索命令：db.getCollection(‘rules_posterity’).find({’_id’:‘all_wgb2b_wgb2b_sell_seeds’})

参考：all_damuzhi_b2b6_sell_seeds
mongo搜索命令：db.getCollection(‘rules_posterity’).find({’_id’:‘all_damuzhi_b2b6_sell_seeds’})

关注