htmlunit应用到爬虫上来解析JS的问题（javascirpt 解析）

最新推荐文章于 2023-06-23 21:39:11 发布

SimpleCoderMan

最新推荐文章于 2023-06-23 21:39:11 发布

阅读量4.1k

点赞数

本文链接：https://blog.csdn.net/ted522/article/details/8781301

版权

我目前致力于解决怎么在搜索引擎的爬虫中的解析问题，具体是怎么解析动态网页中的URL出来，这些URL需要JAVASCRIPT的解析才能获得完整的链接信息，不是简单地找href,window.open,location然后用正则表达式就能解决。

尝试用htmlunit这个JAVA的模拟浏览器来解决这个问题，里面使用了rhino犀牛这个javascript解析引擎.（目前我用最新版2.12了）

目前我发现一个问题，就是htmlunit中的执行脚本的API，执行同一个javascript的function函数，第一次可以返回正确结果，第二次返回结果就不正确了，第二次还是调用同一个函数，不同参数，可能返回结果和第一次调用的时候一模一样，无论输入参数改成什么，这是不是它的一个BUG呢？

但是执行不同的function函数，能保证不同的结果，因为其第一次运行的结果是正确的，第二次开始就不能解析正确，感觉就像直接返回了之前调用的结果而已，这么一个软件怎么会出现这个问题，不应该啊

请问有什么解决办法？？有哪位碰到过类似的问题吗？

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

SimpleCoderMan

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
17
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

最近用htmlunit做网络爬虫遇到拿不到初始化js加载的数据的问题最近解决了写个简单的例子

caiselangren的专栏

07-17

5479

public static void main(String[] args) throws Exception { String url="www.xxx.com"; WebClient webClient = new WebClient(BrowserVersion.FIREFOX_17); //设置webClient的相关参数

初学java爬虫，用htmlunit + jsoup解析JavaScript

Mervyn的博客

03-24

1255

在用jsoup爬晋江的时候，模拟登陆后仍获取不到v章内容。经验证，是因为jsoup无法解析JavaScript，而v章内容是js动态获取的。经过查阅资料，最后使用htmlunit+jsoup来实现登陆和获取cookies在上一篇已经写了，不再赘述。 public static String getChapterContent(Chapter chapter, String novelUrl) ...

17 条评论您还未登录，请先登录后发表或查看评论

通过htmlunit获取执行js代码后的html文档

04-05

获取执行js代码后的html文档。

[Jsoup] 使用HtmlUnit + Jsoup解析js动态生成的网页

半途行走的博客

08-09

590

转自：https://blog.csdn.net/dietime1943/article/details/79035779

java htmlunit js_Java版web浏览器htmlunit使用记录-js解释器

weixin_30290193的博客

02-16

448

记录一下：前两天有个爬虫的项目出问题了，爬取的服务端升级了mlgbd，给每个关键页面加了cookie验证。访问服务器端给返回状态码202，并且返回的html里有一段加密过的js，这段js通过获取meta标签里动态传入的content值进行计算然后把值存入cookie，本来想看js直接写的啥自己通过逻辑取出值去生成cookie的，结果发现js里的几个关键值都是后台动态生成的，想来想去直接取值麻烦...

基于Apache Nutch和Htmlunit的扩展实现AJAX页面爬虫抓取解析插件.zip

最新发布

04-08

【标题】"基于Apache Nutch和Htmlunit的扩展实现AJAX页面爬虫抓取解析插件.zip" 提供了一个深入的爬虫项目实例，旨在解决AJAX动态网页内容的抓取问题。Apache Nutch是一个开源的网络爬虫框架，而Htmlunit是一个无头...

基于ApacheNutch和Htmlunit的扩展实现AJAX页面爬虫抓取解析插件nutch-htmlunit.zip

07-19

导致htmlunit无法直接感知到需要等待Kissy发起的请求完成，通过等待页面加载解析内容判断处理实现此类页面数据抓取。基于页面滚动的AJAX请求页面抓取: 诸如淘宝/天猫的商品详情页面会基于页面滚动发起...

htmlunit爬虫.rar

06-21

10. **爬虫框架的应用**：除了HTMLUnit，项目可能还结合了其他Java爬虫框架，如Jsoup或Apache HttpClient，以增强爬虫的功能和易用性。通过学习和实践这个“htmlunit爬虫”项目，你将能够深入理解HTMLUnit的工作...

使用HtmlUnit抓取js渲染后的页面

piggy514的博客

06-23

725

在Eclipse里运行成功（即，得到了html里js渲染后拉取到的服务端数据）后，右键Export - Runnable JAR file - 起名为例如 HtmlUnit.jar。但测试后也只能得到js未渲染时的html，也试了window.setTimeout等待js渲染完成，总之没成功。如果someCmd是wget/curl这种，只能得到一个html，里边的js所拉取（渲染）的数据是得不到的。java里是写死了url，后边做成参数的或读取某个配置文件（例如，里边每行一个所要读取的url）

node.js 基于cheerio的爬虫工具的实现（需要登录权限的爬虫工具）

01-21

公司有过一个需求,需要拿一个网页的的表格数据，数据量达到30w左右；为了提高工作效率。结合自身经验和网上资料。写了一套符合自己需求的nodejs爬虫工具。也许也会适合你的。先上代码。在做讲解 'use strict'; // 引入模块 const superagent = require('superagent'); const cheerio = require('cheerio'); const Excel = require('exceljs'); var baseUrl = ''; var Cookies = 'PHPSESSID=1c948cafb361cb5dce871228

解决htmlunit抓取ajax数据是报错

weixin_34598008的博客

06-04

1376

今天在研究使用htmlunit抓取ajax的动态数据的时候，使用webClient.setAjaxController(new NicelyResynchronizingAjaxController());//支持AJAX报错并且AJAX请求没有成功的获取到数据，查阅网上的一些解释又三种不过后两个都是设置等待时间，在我看来总体就算两种了，其他一个就是使用以上语句，但是好像很多人都没有成功，经过排查...

htmlunit 不能获取jquery $.getScript部分js的问题，标记一下

热门推荐

lzj0470的专栏

11-22

1万+

import com.gargoylesoftware.htmlunit.BrowserVersion; import com.gargoylesoftware.htmlunit.NicelyResynchronizingAjaxController; import com.gargoylesoftware.htmlunit.WebClient; import com.gargoylesoftwa

html button 点击无效,HTML button点击不了

weixin_32339855的博客

06-04

3175

divContent前面少个点，checkbox改为checkbox1如下已经可以提交了/p>Transitional//EN""http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">控制DOM对象.divFrame{width:260px;border:solid 1px #666; font-size:10pt}.divT...

cheerio相关总结

weixin_39676449的博客

12-14

568

一.定义： cheerio是jquery核心功能的一个快速灵活而又简洁的实现，主要是为了用在服务器端需要对DOM进行操作的地方二.简要介绍： 1.实例代码： var cheerio = require('cheerio'), $ = cheerio.load('<h2 class = "title">Hello world</h2>'); $('h2.titl...

cheerio中文文档

TWcodego的博客

07-22

1435

这篇参考手册是对cheerio 官方文档的中文翻译 cheerio是jquery核心功能的一个快速灵活而又简洁的实现，主要是为了用在服务器端需要对DOM进行操作的地方简介让你在服务器端和html愉快的玩耍 var cheerio = require('cheerio'), $ = cheerio.load('<h2 cl...

JAVA 采用htmlunit和Jsoup爬取网站详情，处理请求重定向得到重定向网站。以及使用代理进行网站访问

public_pig的博客

02-25

1641

JAVA 采用htmlunit和Jsoup爬取网站详情，处理请求重定向得到重定向网站。以及使用代理进行网站访问

关于htmlunit运行时报各种错的坑

nercon233的专栏

01-21

7323

因为项目需要，采用htmlunit爬取带ajax和其他js执行结果的页面，开发环境jdk1.7 和maven 网上很多资料上使用的htmlunit版本的示例使用了之后，老是报错，根本原因就是htmlunit的版本问题或者jar包缺失问题。经过一天多的折腾，终于有一个可以用的示例了。最新的htmlunit不兼容jdk1.7所以使用低版本2.18版的htmlunit 先记录如下： maven依赖...

Java 忽略HtmlUnit执行过程中日志打印的javascript报错信息 Error during JavaScript execution

heasy's blog

11-18

3452

进行各种各样的网页爬虫过程中，有些网页直接httpclient拿过来就能用，但是有些网站是需要等待js加载样式或者某些值的，使用httpclient没办法设置js等待时间，然后再抓取值。 htmlunit可以完美解决这个问题。但是在使用htmlunit访问网页时经常会出现各种网页的JavaScript加载过程中的警告与提示信息例如： ERROR c.g.h.javascript.Defau...

Java爬虫项目源码解析与应用

通过以上知识点的介绍，可以了解到Java爬虫项目源码的基本概念、结构和技术实现方式，以及在开发和使用过程中需要注意的问题。对于想要了解或参与Java爬虫项目的开发者而言，这是一份宝贵的学习和参考资料。