scrapy应用xpath语法

最新推荐文章于 2021-04-06 20:31:51 发布

T@J

最新推荐文章于 2021-04-06 20:31:51 发布

阅读量201

点赞数

分类专栏：大数据文章标签： xpath xml

本文链接：https://blog.csdn.net/weixin_43433376/article/details/106577979

版权

大数据专栏收录该内容

2 篇文章 0 订阅

订阅专栏

scrapy应用xpath语法

根据 HTML语言的分段，每个标签作为xpath的搜索关键词

如<body>  <div>  <a>  <li>  <ul>	  <p>  <span> 
   等等各种类型

xpath语法可以用分号做分隔符来区分标签

两个分号//是从全局目录开始往下找
分号前有个点 ./ 表示已经有父级目录了，从父级目录往下查找

但是最需要注意的是标签的属性值和标签下的内容
<a title = '这个部分'>...</a>
<a>以及这个部分</a>
下面将对这两个部分书写xpath代码

读取标签下内容部分

div/a/text().get()

//首先锁定要查找的父标签
text=response.xpath("//div[@id='search_nature_rg']/ul[@class='bigimg']/li")
text.xpath("./p[@class='price']/span/text()").get()

读取标签属性值部分

//仍然要先锁定需要查找的父标签
text=response.xpath("//div[@id='search_nature_rg']/ul[@class='bigimg']/li")
text.xpath("./p[@class='name']/a/@title").get()

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

T@J

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

scrapy框架开发爬虫实战——xpath语法

万锦

10-10

493

xml文档结构 xml文档（html属于xml）是由一系列节点构成的树，例如： xpath基本语法表： xpath例子 /：描述一个从根开始的绝对路径。 >>> response.xpath('/html') E1/E2：选中E1子节点中的所有E2。 # 选中div子节点中的所有a >>> response.xpa...

Scrapy_XPath选择器

苦涩

11-08

294

文章目录XPath选择器基础语法常用函数 XPath选择器 XPath即XML路径语言，它是一种用来确定xml文档中某个部分位置的语言基础语法下面通过一个HTML文档讲解各个语法 from scrapy.selector import Selector from scrapy.http import HtmlResponse body = """ &lt;html&gt; &lt;h...

参与评论您还未登录，请先登录后发表或查看评论

scrapy的xpath语法

dream8062的专栏

12-20

722

Scrapy是基于python的开源爬虫框架，使用起来也比较方便。具体的官网档：http://doc.scrapy.org/en/latest/ 　　之前以为了解python就可以直接爬网站了，原来还要了解HTML，XML的基本协议，在了解基础以后，在了解下xpath的基础上，再使用正则表达式(python下的re包提供支持)提取一定格式的信息（比如说url），就比较容易处理网页了。　　xp

3、scrapy——xpath语法

热门推荐

badman250的专栏

03-19

3万+

XPath 是一门在 XML 文档中查找信息的语言。XPath 用于在 XML 文档中通过元素和属性进行导航。 XPath 含有超过 100 个内建的函数。这些函数用于字符串值、数值、日期和时间比较、节点和 QName 处理、序列处理、逻辑值等等。 XPath 是 W3C 标准,XPath 于 1999 年 11 月 16 日成为 W3C 标准。XPath 被

Scrapy爬虫：XPath语法

灵动的艺术的博客

12-05

3491

Scrapy爬虫：XPath语法路径表达式路径案例谓语（Predicates）谓语实例选取未知节点实例选取若干路径实例Xpath轴功能函数注意事项：提取内容 XPath 使用路径表达式来选取 XML 文档中的节点或节点集。节点是通过沿着路径 (path) 或者步 (steps) 来选取的。路径表达式表达式描述 nodename 选取此节点的所有子节点。 / 从根节点选取。...

python scrapy xpath常用语法

ShellDawn的博客

02-24

725

Node[not(@class)] //不含class属性的node节点 Node[contains(text(),a)] //文本包含字符串a的node节点 Node[count(span)=2] //包含两个span节点的node节点未完待续

scrapy中xpath示例用法

06-23

1. **XPath基本语法** - `/`：根节点选择器，表示从文档根部开始。 - `//`：任意深度选择器，用于选取任意位置的节点。 - `.//`：当前节点的任意深度选择器。 - `*`：通配符，代表任何元素节点。 - `@`: 属性...

Python之网络爬虫（Xpath语法、Scrapy框架的认识）

Viewinfinitely的博客

07-05

454

文章目录一、Xpath语法二、Scrapy框架的认识一、Xpath语法 xpath是一门在XML文档中查找信息的语言 1、节点(Node) 元素、属性、文本、命名空间、文档（根）节点 2、节点关系父（parent）子（Children）同胞（Sibling）先辈（Ancestor）后代（Descendant） 3、 xpath语法表达式描述 nodename 选取此节点的所有子节点 // 从任意子节点中选取（第一级） / 从根节

python爬虫+scrapy+xpath

weixin_47803451的博客

05-28

966

scrapy安装步骤是windows+r，输入cmd回车进入终端有时pip版本过于老旧不能使用，需要升级pip版本，输入pip install --upgrade pip回车，升级成功安装scrapy命令：pip install Scrapy,lxml scrapy各模块介绍 spiders:你的爬虫文件，页面解析 items:爬虫内容存储格式，类似字典 pipelines: 数据存储管道，用于存储数据 middleware:中间组件，用于反爬策略以及爬取设置 settings:相关联各种设置 xpa

python/scrapy/xpath基本使用语法

qq_38128751的博客

04-30

187

python/scrapy/xpath基本使用语法案例代码 <?xml version="1.0" encoding="ISO-8859-1"?> <bookstore> <book> <title lang="eng">Harry Potter</title> <price>29.99</price&gt...

xpath语法（爬虫必学语法， scrapy之路）

k8vg___的博客

10-14

260

相信写过爬虫的同学，都知道XPath的存在。博主最近在学习Scrapy的时候，就了解了一下XPath语法，这里给大家简单地介绍一下：节点（node）在 XPath 中，有七种类型的节点：元素、属性、文本、命名空间、处理指令、注释以及文档（根）节点。XML 文档是被作为节点树来对待的。树的根被称为文档节点或者根节点。 <?xml version="1.0" encoding="ISO-8859-1"?> <class> <student&g

Scrapy框架之selecter.xpath()函数的语法总结

weixin_43343144的博客

02-23

785

Xpath（XML的语法规则）语法规则官方手册：http://www.w3school.com.cn/xpath/xpath_syntax.asp 具体用法总结：（函数部分参考xml手册） html = ''' <div> <ul> <li class="toctree-l1"><a ...

scrapy框架 & xpath常用基本语法

weixin_45646989的博客

04-06

365

一、scrapy: 1、创建项目 scrapy startproject myproject #myproject 为项目名 2、列出所有模板 scrapy genspider -l 3、创建爬虫 scrapy genspider -t crawl zhihu zhihu.com # zhihu 为爬虫名 zhihu.com为爬取网站域名 scrapy genspider spiders zhihu.com # spiders为爬虫名 zhihu.com为爬取网站域名 4、运行spi

scrapy xpath

galaxyxupt的博客

08-19

369

xpath学习笔记选取节点：常用的路径表达式表达式描述实例解释 nodename 选取nodename节点的所有子节点 xpath(‘//div’) 选取了div节点的所有子节点 / 从根节点选取 xpath(‘/div’) 从根节点上选取div节点 // 选取所有的当前节点点，不考虑位置 ...

scrapy的xpath

weixin_42117133的博客

09-19

307

节点认识：语法：

scrapy、xpath

misterfm的博客

07-08

804

1、创建scrapy工程： cmd下cd到scrapy.exe 所在目录，C:\Python27\Scripts，然后运行： scrapy startproject Article （Article是新建的文件夹名）会在C:\Python27\Scripts下生成Article文件夹，然后pycharm导入即可。...

scrapy之xpath

black000shirt的博客

11-16

362

1、xpath定位不到：删掉tbody 2、获取文本：text() 3、获取网址：@href

【scrapy】xpath

竹生的专栏

02-28

699

想要爬取一个网站，这个网站的不同网页的正文部分的xpath是不一样的，比如：有个页面的正文部分是：//*[@id='postmessage_32199'] 另一个是：//*[@id='postmessage_32153'] ...... 它们的格式是postmessage_xxxxx,x为数字。我的问题是：xpath中可以使用用正则表达式吗？如果不能那怎么匹配这么多不同的xpath？ ps