python scrapy 无法通过网页上复制的xpath查找到有效的元素的分析

最新推荐文章于 2024-02-20 06:30:00 发布

Ui_none

最新推荐文章于 2024-02-20 06:30:00 发布

阅读量475

点赞数

文章标签： python javascript

本文链接：https://blog.csdn.net/Ui_none/article/details/109183608

版权

前言

在之前的分析笔记中，我了解到简单的使用网页上复制的xpath并不一定可以获取到特定元素，在本文中则指的是使用JavaScript渲染的标签元素无法简单的通过scrapy获取，既然知道了问题所在，那么自然要着手问题的解决了。那么如何查找到使用JavaScript渲染的标签元素呢？

顺便贴上上一个分析笔记的链接：
https://blog.csdn.net/Ui_none/article/details/109143127

正文

解决方法有二：
第一种方法，由于scrapy无法“执行JavaScript提交函数”，所以必须使用Splash或者类似的支持JavaScript交互的替代方案。使用Splash渲染引擎提供渲染服务从而获得页面信息。
此处贴一个优秀教程的地址：

https://www.cnblogs.com/518894-lu/p/9067208.html

第二种方法，在触发JavaScript代码的时候查看向服务器发送的请求，自己构建类型的请求从而跳过JavaScript渲染的问题。但如何构建我个人还没有学习，如果有大佬这方面比较懂还望多多指教ww。

资料链接：

https://www.cnpython.com/qa/117684
https://www.cnblogs.com/518894-lu/p/9067208.html

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

Ui_none

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
python scrapy 无法通过网页上复制的xpath查找到有效的元素的分析

前言
复制链接

扫一扫

scrapy爬虫始终定位不到元素

gofreshman的博客

03-26

1003

scrapy爬虫始终定位不到元素欲抓取网页链接谷歌浏览器审查时界面复制的xpath路径为//*[@id=“history”]/tr[1]/td[1]，使用浏览器控制台验证无误但使用get和xpath得到值为空列表查看网页源代码对应路径下确实无此元素疑为异步加载网页，查看network 搜索并未找到欲抓取元素，难受。不断调试试验，最终在firefox复制xpath绝对路径，并使用...

python 爬虫时遇到元素无法定位

juice_10的博客

01-21

697

NoSuchElementException: no such element: Unable to locate element: {"method":"css selector","selector":"[name="username"]"} (Session info: chrome=88.0.4324.96) 一般是因为时间不够，资源还再加载。所以可以在找元素前延时一会儿 time.sleep(2) ...

参与评论您还未登录，请先登录后发表或查看评论

为什么不要轻易使用 Chrome 复制的 XPath？

mifffy_java的博客

03-26

1073

有一些同学在写爬虫的时候，喜欢在Chrome 开发者工具里面直接复制 XPath，如下图所示：他们觉得这样复制出来的 XPath 虽然长了点，但是工作一切正常，所以频繁使用。但我希望大家不要过于依赖这个功能。因为它给出的结果仅作参考，有时候并不能让你提取出数据。我们来看一个例子。这是一个非常简单的HTML 页面，页面中有一个表格，表格有一列叫做电话。我现在想把这里面的5个电话提取出来。如果直接使用 Chrome 的复制 XPath 的功能，我们可以得到下面这个 XPath： /htm

JxBrowser Xpath不能复制，提示：Clipboard is not enabled in hosted mode. Please inspect using chrome://inspec

fendo

02-22

1531

一、问题描述使用JxBrowser的调试功能,元素右键Copy Xpath提示如下错误： Clipboard is not enabled in hosted mode. Please inspect using chrome://inspect 在stackoverflow找到了建议。。https://stackoverflow.com/questions/457235...

python爬虫学习，包括urllib，request，xpath，scrapy等

01-18

Python爬虫技术是数据获取和分析的重要工具，尤其在大数据时代，它被广泛应用于网站信息抓取、数据挖掘和自动化测试等领域。本教程将详细讲解Python中的几个关键库：urllib、requests、xpath以及Scrapy框架，帮助你...

有关PYTHON各种采集代码,XPath,requests,Scrapy

01-26

例如，`lxml`库提供了一个`etree`模块，支持XPath查询，通过`ElementTree`对象的`xpath()`方法，我们可以定位到页面上的特定元素，从而提取所需数据。 requests是Python的一个HTTP客户端库，用于发送HTTP请求，如...

基于Python Scrapy爬虫框架实现的链家二手房数据爬取系统的设计与实现毕业设计论文答辩用 1万+字共41页.docx

02-13

- **XPath网页提取技术**：XPath是一种在XML文档中查找信息的语言，也被广泛应用于HTML网页的元素定位。在本项目中，XPath被用来精确地从网页中提取所需的房源信息。 - **Redis分布式存储**：Redis是一种高性能的...

Python基于Scrapy的页面敏感词检测工具源码.zip

06-09

Python基于Scrapy的页面敏感词检测工具是一种高效的数据抓取和处理框架，它结合了Scrapy库的强大功能，用于从网页中抓取信息并进行特定的敏感词检测。本工具适用于那些需要监控网络内容，避免违规信息发布的场景，如...

一步步教你用python的scrapy编写一个爬虫

09-19

Scrapy 是一个强大的 Python 爬虫框架，它简化了网页抓取的复杂性，提供了丰富的功能，使得开发者能够高效地构建和管理网络爬虫。本文将指导你逐步使用 Scrapy 创建一个爬虫项目，包括环境配置、项目创建以及基本的...

关于在python中scrapy模块的scrapy shell中通过xpath无法查询到相应的元素的问题

Ui_none的博客

10-18

727

前言某天打算使用scrapy shell爬取prts上信息的时候复制了元素的xpath却在scrapy shell中无法查询到相应的结果，得到的结果是一个空列表，如图：但是在某些网站的某些元素却是可以成功查询到有效的结果，比如说百度网站的“百度一下”按钮正文在网上搜索结果后主要有两种观点，第一种是Chrome的复制xpath会自动添加<tbody>标签，即使源码上不存在这个标签，这样自然无法查询到正确有效的结果，但是我爬取的prts的元素恰好有<tbody>标签，所以不是

Scrapy里面的Xpath解析器问题

最新发布

晦涩难董先生

02-20

2268

Scrapy的Selector对象和lxml的Element对象有一些区别，所以在提取数据时需要使用相应的方法进行处理。scrapy会在内置里面处理得比较感觉,xpath会比较繁琐一些!Scrapy的XPath解析器在语法上与lxml类似，但在返回值类型、属性选择器、命名空间、默认上下文、默认转义和匹配顺序等方面有一些细微的差别。熟悉这些区别将有助于你更好地使用Scrapy进行数据抓取和解析。

Python自动化测试专栏——元素定位不到常见问题及解决办法

weixin_48826751的博客

04-12

2742

1.元素id动态变化以如下图片举例当我们要定位到该元素时，如果采用id属性定位，那么很有可能定位不到。原因：当我们刷新一遍网页时，会发现id值发生变化，表明它是个动态id,每次自动化时会因为值不同无法定位到该元素解决方法：采用其他属性定位，如案例中即可采用data-placeholder的值定位 2.定位的元素嵌套在iframe当中以如下图片举例以刚刚图片举例，当我们选择用data-placeholder定位时，发现还是定位不到，我们将检查元素界面往前翻原因：发现该元素嵌套在iframe

python 爬虫，在浏览器中复制的xpath无法解析

qq_52296092的博客

01-08

992

html.xpath中无法获取到相应的标签，我复制的路径为：/html/body/div[2]/div/div/div[3]/div/div[4]/。由下图可知我需要的在第二个div中，所以用div[2]没错，但是没有获得数据。当然也有遇到是本身复制的xpath出现了一些问题，有的浏览器会自动加上一些标签，很可恶。所以检查一下要是没有问题就换成bs4,或者正则表达式也可以。当我将div[2]改为div[1]的时候，获得了数据。猜测原因是第一个div是hidden状态。在浏览器中复制到的xpath丢入。

为什么浏览器上xpath可以获取数据，python中无法获取

python伊甸园的博客

09-18

5925

偶尔我们在写爬虫的时候会遇到这样一个问题，在浏览器上写的xpath语法明明可以获得数据，但是到python里面，一模一样的xpath语法却无法得到数据，这个问题出现在哪里呢？原因一：浏览器上的xpath是根据浏览器解析了服务器返回过来的网页源码，两者可能存在一定差异，比如部分标签不一样。如今的浏览器是非常智能的，如果HTML缺少些标签，也会帮助服务器返回过来的源码自动补全，导致标签上存在差异。最准确的获取方式：查...

Python爬虫——从浏览器复制的Xpath无法解析（tbody）

zy010101博客

04-20

3733

今天遇到一个问题，我的爬虫想抓取一个网页上的有些内容，使用Xpath解析的方式。前几个内容都可以被Xpath解析，但是最后一个标签内的内容始终解析不到，困扰了我一上午。最后我一步一步尝试解决了。但是我并不知道是为什么？这个场景就是程序已经执行起来了，但是你完全不知道它为什么能正常运行。下图可以完美描述。下面这个视频更加生动：https://www.bilibili.com/video/av370044900/，建议反复观看。后来，经过我返回斟酌关键字，进行搜索，看到前辈们的经验，发现原来是浏览器

遇到过的使用xpath定位不到元素的两种情况