计算机网络——爬虫：HtmlCleaner无法通过XPath获取到数据

最新推荐文章于 2022-04-22 20:29:20 发布

ManbaBryant

最新推荐文章于 2022-04-22 20:29:20 发布

阅读量362

点赞数 1

分类专栏：计算机网络文章标签： java 爬虫

本文链接：https://blog.csdn.net/weixin_38938338/article/details/104693926

版权

计算机网络专栏收录该内容

5 篇文章 0 订阅

订阅专栏

HtmlCleaner无法通过XPath获取到数据

用法

String content=获取到的页面内容
HtmlCleaner htmlCleaner=new HtmlCleaner();
TagNode rootNode=htmlCleaner.clean(content);
Object[] objects=rootNode.evaluateXPath("");

出现的问题

objects为空,无法通过XPath获取到数据

可能的原因

不同浏览器获取到的XPath不同
XPath路径中有tbody标签
Xpath路径有html，示例：

Xpath: /html/body/div[2]
希望获取的数据是动态加载的

解决措施

尝试更换浏览器
删除tbody标签，这是因为网页返回本身是没有这个标签，是浏览器规范html元素中加上的
删除Xpath路径中的html
参考链接

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

ManbaBryant

关注关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

100天精通Python（爬虫篇）——第45天：lxml库与Xpath提取网页数据（基础+代码实战）

努力让自己发光，对的人才能迎着光而来

07-03

2万+

一、爬虫提取网页数据的流程图二、lxml库 1. 下载安装 2. 解析HTML网页三、Xpath介绍 1. 选取节点 2. 谓语 3. 选取未知节点 4. 选取若干路径 5. Chrome插件 XPath Helper安装使用 6. Xpath实战..................

爬虫工具：浅谈HtmlCleaner+XPath解析HTML

崔向阳@李晓的博客

03-27

663

现在常用的网页解析工具有：Jsoup，JsoupXpath，HtmlCleaner。 jsoup 是一款Java 的XML、HTML解析器，可直接解析某个URL地址、HTML文本内容和已经存在的文件。 JsoupXPath是基于Jsoup的拓展，使用路径的形式解析XML和HTML文档。核心类为JXDocument；JsoupXPath的节点对象JXNode不仅可以获取标签节点，还可以获取属性节...

参与评论您还未登录，请先登录后发表或查看评论

HtmlCleaner无法通过XPath获取到数据

崔向阳@李晓的博客

03-27

377

通过浏览器F12，选取的Xpath路径有时无法定位到目标即：objects为空,无法通过XPath获取到数据。原因分析：不同浏览器获取到的XPath不同 XPath路径中有tbody标签 Xpath路径有html，示例： Xpath: /html/body/div[2] 希望获取的数据是动态加载的 Xpath路径规则介绍：语法选取结点表达式描述 ...

htmlcleaner xpath的一些tips

ustcxjt的专栏

07-30

5170

参考网上列一些tips http://hi.baidu.com/yuweiming/blog/item/ac2bc817ad598f04c83d6d46.html HtmlCleaner supports XPath to find tagNode/attribute, but it is not fully supported XPath parser and

初试htmlCleaner结合Xpath

ling1990822的专栏

09-29

151

//import java.io.File; import java.io.IOException; import java.net.URL; import org.htmlcleaner.CleanerProperties; import org.htmlcleaner.HtmlCleaner; import org.htmlcleaner.PrettyXmlSerializer; ...

使用 XPATH 和 HTML Cleaner 解析 HTML/XML

weixin_34278190的博客

01-08

使用 XPATH 和 HTML Cleaner 解析 HTML/XML（Using XPATH and HTML Cleaner to parse HTML / XML）太阳火神的美丽人生 (http://blog.csdn.net/opengl_es) 本文遵循“署名-非商业用途-保持一致”创作公用协议转载请保留此句：太阳火神的美丽人生 - 本博...

《python3网络爬虫开发实战》学习笔记：：selenium——xpath：Unable to locate element

01-08

selenium+firefox在定位时遇到selenium.common.exceptions.NoSuchElementException: Message: Unable to locate element: ...这种定位错误一般很少出现，因为其中的xpath路径一般是通过copy xpath而不是自

浅谈HtmlCleaner+XPath解析html或者xml

weixin_30268071的博客

11-21

119

解析html或者xml可以选用： DocumentBuilder或者HtmlCleaner DocumentBuilder与js中document没有太大的区别，而且不适用，在此不过多介绍。进入正题： HtmlCleaner是一个开源的Java语言的Html文档解析器。HtmlCleaner能够重新整理HTML文档的每个元素并生成结构良好(Well-Formed)的 HTML 文档。默认...

htmlcleaner使用方法及xpath语法初探

09-03

HtmlCleaner是一个开源的Java语言的Html文档解析器。HtmlCleaner能够重新整理HTML文档的每个元素并生成结构良好(Well-Formed)的 HTML 文档

HtmlCleaner-JAVA爬虫--编写第一个网络爬虫程序

01-06

基于HtmlCleaner编写第一个JAVA爬虫程序;文章博客URL地址:http://blog.csdn.net/gongbing798930123/article/details/78989572

htmlcleaner+xpath爬取

i am me，haha，么么哒。。。

11-14

1578

有两个问题，记录一下： 1、xpath如下格式（通过firebug下面的xpath插件获得的路径）： 1 html/body/div[2]/div[1]/div[3]/ul/li/div/div/span/span[2] 此时htmlcleaner调用xpath查找元素的方法找不到该元素（确定及肯定该界面有这

htmlcleaner 抓取内容不带html标签,htmlcleaner+xpath爬取

weixin_42170064的博客

06-01

472

有两个问题，记录一下：1、xpath如下格式(通过firebug下面的xpath插件获得的路径)：html/body/div[2]/div[1]/div[3]/ul/li/div/div/span/span[2]此时htmlcleaner调用xpath查找元素的方法找不到该元素(确定及肯定该界面有这元素)，将路径修改为：/body/div[2]/div[1]/div[3]/ul/li/div/d...

htmlcleaner使用及xpath语法初探

热门推荐

reesun的专栏

09-26

1万+

一、HtmlCleaner使用： 1、HtmlCleaner HtmlCleaner是一个开源的Java语言的Html文档解析器。HtmlCleaner能够重新整理HTML文档的每个元素并生成结构良好(Well-Formed)的 HTML 文档。默认它遵循的规则是类似于大部份web浏览器为创文档对象模型所使用的规则。然而，用户可以提供自定义tag和规则组来进行过滤和匹配。主页地址：http

使用httpclient、htmlcleaner 、xpath 采集新浪微博3G站点数据

mingyuan's workspace

02-15

7936

0、背景原来对新浪微博的采集主要靠对weibo.com这个入口进行，但是最近发现有人使用weibo.cn这个入口操作。应为weibo.cn对应的是微博的3g版本，基本没有广告，页面小，这样下载数据量会小很多，并且3g版本的采集比较简单。于是就有了这个3g版本的采集程序。写出来，分享给大家，希望对有需要的朋友有所帮助。使用到的类库：httpclient、htmlcleaner

爬虫使用xpath解析时返回为空，获取不到相应的元素的原因和解决办法

小鱼干儿的博客

04-22

1万+

xpath写的对，但是返回值为空在写爬虫的时候解析网页，使用最多的解析方式就是xpath解析，但是在使用在使用xpath解析的时候，通常会遇到会获取不到相应元素的情况原因通常是前端做的一些反爬措施，在编写网页的时候通常省略一层标签，但是被省略的标签浏览器会自动补充，修改成正确的结构我们通过浏览器进行检查的时候，看到的代码结构是已经被浏览器修改后的，而爬虫获取到的是源代码所以根据修改后的xpath解析源代码会找不到相应的元素 ...

java 网络爬虫项目（5）

大西瓜不甜的博客

03-15

230

实现功能：优化解析代码 xpath路径常常需要改变时可以通过两种方法减少工作：一是通过使用配置文件，将xpath路径都保存在配置文件中二是将路径保存在数据库中使用将很多重复的代码写成不同的方法放到工具包中减少代码的重复性。 CSDNProcessService.java package work.spider.service.impl; import java....

Python网络爬虫：解决异步加载数据获取问题

在本文中，我们将探讨如何使用Python进行网络爬虫以获取异步加载的数据，具体案例是抓取重庆市政府采购网的采购公告信息。首先，需求分析阶段明确了目标：自动化获取并展示项目名称和采购物资。为了实现这一目标，...