xpath 在firefox，chrome中正常，在requests中不正常的解决。

最新推荐文章于 2021-10-14 18:48:53 发布

weixin_30468137

最新推荐文章于 2021-10-14 18:48:53 发布

阅读量117

点赞数

原文链接：http://www.cnblogs.com/jackadam/p/10112960.html

版权

经多次测试发现：

lxml中的etree格式化以后，直接使用firefox或chrome提取的xpath检索不到内容。

主要是因为tbody

# 车种xpath
czxx = '/html/body/table/tbody/tr/td/table/tbody/tr[1]/td[7]'
# 车型xpath
cxxx = '/html/body/table/tr/td/table/tr[1]/td[5]'

看上面两个，去掉tbody就可以了。

上面两个xpath是用firefox提取的。

下面是chrome提取的，也是要去掉tbody

# 车种xpath
czxx = '//*[@id="report1"]/tr[1]/td[7]'
# 车型xpath
cxxx = '//*[@id="report1"]/tr[1]/td[5]'

转载于:https://www.cnblogs.com/jackadam/p/10112960.html

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

weixin_30468137

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

XPath-Helper 爬虫网络

06-02

提取，编辑和轻松评估XPath查询。 XPath的助手很容易提取，编辑，并在任何网页评估XPath查询。重要提示：安装此扩展后，必须重新加载任何现有的选项卡或重新启动Chrome浏览器扩展工作。说明： 1.打开一个新的标签，并导航到任何网页。 2.按Ctrl-Shift键-X（或OS X命令移-X），或单击工具栏上的XPath的助手按钮，以打开XPath助手控制台。 3.按住Shift键将鼠标悬停在页面上的元素。查询框将不断更新，以显示鼠标指针下方的元件XPath查询，结果框将显示当前查询的结果。 4.如果需要，请在控制台直接编辑XPath查询。结果框会立即反映更改。 5.重复步骤（2）关闭控制台。如果控制台在你的方式获得，按住Shift键，然后将鼠标移动到它; 它会移动到页面的相对侧。一个忠告：当渲染HTML表格，浏览器插入人工<TBODY>标记到DOM，这将在随后通过该扩展提取查询显示出来。 Extract, edit, and evaluate XPath queries with ease. XPath Helper makes it easy to extract, edit, and evaluate XPath queries on any webpage. IMPORTANT: After installing this extension, you must reload any existing tabs or restart Chrome for the extension to work. Instructions: 1. Open a new tab and navigate to any webpage. 2. Hit Ctrl-Shift-X (or Command-Shift-X on OS X), or click the XPath Helper button in the toolbar, to open the XPath Helper console. 3. Hold down Shift as you mouse over elements on the page. The query box will continuously update to show the XPath query for the element below the mouse pointer, and the results box will show the results for the current query. 4. If desired, edit the XPath query directly in the console. The results box will immediately reflect your changes. 5. Repeat step (2) to close the console. If the console gets in your way, hold down Shift and then move your mouse over it; it will move to the opposite side of the page. One word of caution: When rendering HTML tables, Chrome inserts artificial <tbody> tags into the DOM, which will consequently show up in queries extracted by this extension.

爬虫使用xpath部分内容无法获取

qq_42937719的博客

05-11

2030

使用xpath获取信息，同一个网页的不同内容，有的可以，有的无法获取网页中的内容是通过js代码读取外部json数据来动态更新的。 requests只能获取网页的静态源代码，动态更新的内容取不到。对于动态更新的内容要用selenium 来爬取。或者是通过F12控制台分析页面数据加载的链接，找到真正json数据的地址进行爬取。在页面上点击右键，右键菜单中选 "查看网页源代码"。参考：(1条消息) 关于xpath返回空列表的问题-Python-CSDN问答 ...

参与评论您还未登录，请先登录后发表或查看评论

python response.xpath无效_Selenium中的无效xPath错误（具有有效的xPath）

weixin_39793434的博客

12-08

687

我正在使用pyccuracy测试一个Python应用程序，它有一个selenium驱动程序。在我的测试结果显示了xpath的一些不稳定性问题。有时，我会收到一个无效的xPath错误，其中包含一个有效的xPath。如果我再做一次测试，可能会有用。我跟踪了stacktrace，但找不到解决方法。在堆栈跟踪：I do not see "top-search-tag-name" element - FAI...

Python爬虫技术在数据采集中的应用.zip

05-16

为了抓取这些页面的数据，我们需要模拟浏览器行为，如使用Selenium库配合Chrome或Firefox驱动，或者使用Pyppeteer库来处理headless Chrome。四、反爬策略与应对方法网站为了防止被爬，通常会设置各种反爬机制，...

Spider:爬虫python3 (request,BeautifulSoup,xpath,re,Selenium,wordcloud等模块)

04-28

模拟浏览器Selenium用于测试网站的自动化测试工具，支持各种浏览器包括Chrome、Firefox、Safari等主流界面浏览器，同时也支持phantomJS无界面浏览器。模拟点击PhantomJS无界面浏览器pandasjieba使用结巴分词进行中文...

retail-bot:有趣的项目（仅用于教育目的），可以自动在网上商店中购买某些商品

03-18

4. **模拟用户行为**：`selenium`库允许我们控制真实的浏览器，如Chrome或Firefox，模拟用户的真实操作，包括点击链接、填写表单、等待页面加载等。这对于处理需要用户交互的动态网页非常有用。 5. **数据处理与...

python-贝壳-selenium+requests

05-09

在这个案例中，我们利用`selenium`驱动浏览器（如Chrome或Firefox）打开贝壳APP的网页，通过执行JavaScript代码，实现页面的加载和动态内容的展示。例如，我们可以使用`selenium.webdriver.Chrome()`初始化浏览器，...

Scraping-Amazon-Data-Science-Books：使用Selenium在Amazon上刮擦数据科学书籍

02-13

Selenium允许你操作Web浏览器，如Chrome或Firefox，通过编写代码来模拟用户行为，如点击按钮、填写表单和滚动页面。在本项目中，Selenium将用于加载Amazon页面，查找数据科学书籍的搜索结果，然后逐个处理每本书的...

火狐浏览器配置xpath

xuxu_boke的博客

10-14

2716

1.我们先将火狐浏览器安装上，因为一些版本的问题，xpath用不了，我给大家看一下我的版本号。 2.在安装的过程中会出现我们一个自定义安装目录，点击自定义安装目录取消勾选自动更新，因为我这个已经安装好了就不给你们上图了。 3.然后我们点开我们的火狐，找到设置。 4，让他不更新是怕它自己更新过后我们的xpath就把不能用了。 5.然后我们点击确认就可以了。 6.然后我们就要导入我们的xpath了，点击火狐左上角三个横杠，点击附加组件。 7.然后我们点击扩展，这个时候你这个里面应该是空的。 8.然后我们找到设置

xpath用法和 lxml的使用

海边看花开的博客

11-05

2381

使用xpath helper或者是chrome中的copy xpath都是从element中提取的数据，但是爬虫获取的是url对应的响应，往往和elements不一样 1 xpath如何获取文本，如何获取任意标签下的文本 "a/text()" 获取a下的文本 "a//text()" 获取a下的所有标签的文本 "//a[text()="下一页"]" 选择文本为下一页这三个字的的a标签 2...

chrome使用xpath的坑

happyuu的博客

07-11

6656

近期使用python的scrapy进行爬虫练习时，使用chrome自带的xpath复制到代码中，匹配的时候总是出现结果为空，查后发现是在html结果中自加tbody 标签。例如：#复制出来的xpthxpth('//*[@id="position"]/div[1]/table/tbody/tr[1]')#正确的xpth，把tbody去掉，搞定xpth('//*[@id="position"]/div...

有关火狐浏览器xpath定位

wanggaoxingH的博客

07-19

3385

方法一：在火狐浏览器输入网址：https://addons.mozilla.org/en-US/firefox/addon/element-locator-for-webdriv/?src=search 查找：WebDriver Element Locator 并下载：之后，要定位的元素，右击如下图所示就可定位参考文档：https://blog.csdn.net/qiyueqingl...

如何在Python爬虫中使用Selenium库？