scrapy xpath text拼接

最新推荐文章于 2024-09-26 12:03:15 发布

qingsiraojing

最新推荐文章于 2024-09-26 12:03:15 发布

阅读量2.2k

点赞数

分类专栏： python

python 专栏收录该内容

1 篇文章

订阅专栏

本文介绍了一种使用XPath的string(.)函数快速从复杂的HTML结构中提取纯文本的方法，并附带了一个具体的例子来展示如何操作。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

http://blog.csdn.net/pzqingchong/article/details/51487750

还有第三段代码：

<div id="test3">我左青龙，<span id="tiger">右白虎，<ul>上朱雀，<li>下玄武。</li></ul>老牛在当中，</span>龙头在胸口。<div>

而且内部的标签还不固定，如果我有一百段这样类似的html代码，又如何使用xpath表达式，以最快最方便的方式提取出来？

我差一点就去用正则表达式替换了。还好我去Stack Overflow上面提了问。于是很快就有人给我解答了。

使用xpath的string(.)

以第三段代码为例：

data = selector.xpath('//div[@id="test3"]')
info = data.xpath('string(.)').extract()[0]

这样，就可以把“我左青龙，右白虎，上朱雀，下玄武。老牛在当中，龙头在胸口”整个句子提取出来，赋值给info变量。

2 同时选择多个属性

c=response.xpath('//div[@class="visa_table_info"][@data-key="1"]')

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

qingsiraojing

关注关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

Robot Framework Selenium Appium如何拼接动态XPath

Joy Joy的博客

09-24

663

Robot Framework Selenium Appium如何拼接动态XPath

Scrapy爬虫Xpath编写规则梳理

黄勇的博客

09-12

1485

进入浏览器的开发者模式（F12），选取需要获取的节点，如果我们想获取一个列表，例如：在li节点上右键，copy->copy xpath即可获取当前节点的Xpath路径，直接复制如下： /html/body/div[4]/div[1]/ul/li[1] 这个不能直接使用，这个是获取了li节点第一个元素，爬虫里我们需要获取一个集合，用来for循环，所以在爬虫开头里需要修...

参与评论您还未登录，请先登录后发表或查看评论

【selenium】拼接xpath点击伪元素思路

星火飞花

03-07

979

使用selenium遇到伪元素通过拼接xpath提取数据的思路。

uiautomator2中xpath参数用法，可以自由拼接

hanjie0302的博客

09-26

529

在uiautomator2开发中，有时候无法根据元素现有的单一属性定位到元素，此时需要用到xpath方式获取元素，但是有时通过刷界面获取到的xpath又无法使用，那可以尝试自己拼接，这里主要记录XPATH的拼接方法。需要获取到IMEI1的值，但是resourceId等其他元素都不唯一，界面提供的XPTAH建议也不能用，但是发现它的父类唯一，因此可以通过层级目录拼出元素的xpath。父级目录可以与其他同属性的元素区分。

apium 元素相同，通过拼接xpath实现定位

yw741115的博客

01-07

728

① 目的：编写某个模块的自动化脚本方案时，遇到问题：同一个元素对应多个菜单，菜单的text不同，使用拼接xpath实现定位 ② 环境 Python+appium+android真机 ③ 思路这俩菜单的id元素一致，xpath略有不同，无法通过id直接定位，也无法通过xpath直接定位(无法满足需求)。通过xpath拼接‘text’实现定位 xpath=/hierarchy/android.widget.FrameLayout/android.widget.LinearLayout/andr

xpath语法

Good good study!

06-10

1039

作为例子的XML文档 Harry Potter 29.99 Learning XML 39.95选取节点XPath通过路径表达式在XML文档中选取节点。可以通过一条语句或相应的步骤选取一个节点。下面列出了最常使用的路径表达式：Nodename 选取节点下的所有子节点/ 选取根节点// 选取文档中所有符合条件的节点，不管该节点在什么地方.

Scrapy翻页爬取示例——列表页、详情页

qq_39453977的博客

03-12

5606

Scrapy翻页爬取示例——列表页、详情页引言：本人最近在帮助同事们爬取一批英—泰双语数据，顺带复习了一下scrapy爬虫相关的知识。下面以简单的小项目为例，一起来开始吧！示例一：爬取列表页本文以这个网站为例：https://engoo.co.th/app/words/list/en/a 网站首页如图：向下翻会看到翻页的小图标：假如我们要获取1-17页该页面上所有的字符串，如下所示：应该如何做？先给出代码（仅逻辑实现部分）： def parse(self, response):

Python 爬虫：Scrapy 框架入门初探【 Xpath 改写】

Python小蜗牛

04-30

458

目录安装 Scrapy初试 Scrapy第1步：创建项目第2步：编写代码第3步：运行Spider第4步：保存数据结果展示 Scrapy 是一种用于抓取网站和提取结构化数据的应用程序框架，可用于广泛的有用应用程序，如数据挖掘、信息处理或历史存档等。安装 Scrapy 从 PyPI 安装： pip install Scrapy 使用 Anaconda 或 Miniconda 安装： conda i...

Python爬虫-Scrapy框架（四）- 内置爬虫文件 - 4.1 访问二级链接

sunzhihao_future的博客

04-17

1358

Python爬虫-Scrapy框架（四）- 内置爬虫文件 - 4.1 访问二级链接

Scrapy入门篇

qq_62714412的博客

08-05

4111

本文用于记录scrapy的基础知识点，适合入门学习和复习

数据解析之Xpath

sjf082513的博客

01-14

1461

1. xpath基本语法 1.1.介绍 XPath 使用路径表达式来选取 XML 文档中的节点或节点集。XML，可能很多同学都不知道这是个什么东西，XML和HTML很相似，但是也有本质的区别。这里来简单介绍一下。 HTML 是超文本标记语言，HTML 使用标记标签来描述网页，它的文档中包含了 HTML 标签以及文本内容，HTML 文档也叫做 web 页面。 XML 是可扩展标记语言，用于创建网页和 web 应用程序。XML 是动态的，可用来传输数据。区别语言类型不同；HTML 是超文本标

爬虫实战篇之Xpath解析

Python_Ghost的博客

01-31

2076

先来讲讲逻辑，爬取的网站是：情话网 1、进入主页面，这个网站属于同步加载，在document内发现有需要的HTML数据，因此只需看element就行，使用追踪箭头找到标签的位置。标签网址和标签名都在[li a]标签下，包括下面的也是，可以自己查看一下，接下来就是进行模型匹配 //ul[@class="tj_two"]/li/a/@href :标签网址 //ul[@class="tj_two"]/li/a/text() :标签名这里就不解释了，xpath匹配教程网上也有 2、进入标签网

scrapy中xpath将某一个节点下的文本内容串起来

replat-xin

10-11

2382

在爬取数据的时候碰到这样的情况想要拿到红框里的东西源码里面显示的是这样如果直接用text(),只能拿到的是单个li中的字符串这就需要使用xpath中的string()函数，string函数可以将ul底下的字符串全部获取出来，但是string中只能传递单个节点所以，直接用string函数获取出来，使用截取字符串的方式，截取，就能获取到每一个点更多内容关注我的微...

xpath 简单使用

Engure

08-24

647

参考链接

html，xpath合并P标签以下的内容

qwe1110的博客

04-26

478

html，xpath合并P标签以下的内容，同时删除P标签下的span标签。

xpath匹配获取子标签所有文本内容

song_qing_8的博客

11-21

4158

问题这是接单时，使用xpath匹配，想到的一个小技巧，记录和分享给大家。描述如下：一个tr标签对应一行数据每个tr标签中有很多td标签，但是有的td标签有子标签，有的没有，想要爬取每个td标签的所有文本内容问题就是有的td格式不一致，想要将每个td的内容放在一起。最终每行生成一个列表。解决使用列表推导式和 string(.) 功能获取每个标签的子文本 from lxml import etree tree3 = etree.HTML(resp.text) trs = tree

xpath提取多个标签下的text

weixin_30571465的博客

03-25

512

今天在用python爬取微博内容时，想把话题和内容一起输出来，即提取标签及其子标签下（多个标签下）的text内容。 Xpath提取多个标签下的text内容网上搜到的基本都是这边文章：我试了一下，可以用。 xpath语法链接如果不可以用还请参考下面的链接。感谢：https://www.jianshu.com/p/7041a7ba7fe0 转载于:https://ww...

爬虫--获取文本并拼接的几种方法

weixin_42657103的博客

08-04

3496

以爬小说吧为例 import scrapy import re class QingrenSpider(scrapy.Spider): name = 'qingren' allowed_domains = ['tieba.baidu.com'] start_urls = ['https://tieba.baidu.com/p/5820130343'] f ...

XPath最通俗的教程（ZZ）

weixin_30888027的博客

10-20

328

以下是本人找到的最完整最易懂的XPath教程，不敢私藏，拿出来与大家分享。帮我点旁边的google广告呀。实例 1基本的XPath语法类似于在一个文件系统中定位文件,如果路径以斜线 / 开始, 那么该路径就表示到一个元素的绝对路径 /AAA 选择根元素AAA <AAA> <BBB/> ...

python scrapy xpath