ajax网页抓取java_网页抓取-如何抓取AJAX页面？

最新推荐文章于 2021-03-20 20:07:08 发布

韩东晖

最新推荐文章于 2021-03-20 20:07:08 发布

阅读量145

点赞数

文章标签： ajax网页抓取java

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_28049429/article/details/114943283

版权

概述：

首先，所有屏幕抓取都需要手动查看要从中提取资源的页面。在处理AJAX时，通常只需要分析一些内容，而不仅仅是HTML。

在处理AJAX时，这仅意味着您想要的值不在您请求的初始HTML文档中，而是将执行javascript，该javascript请求服务器提供您想要的其他信息。

因此，您通常可以简单地分析javascript并查看javascript发出的请求，而只需从头开始调用此URL。

例：

以这个为例，假设您要从中进行抓取的页面具有以下脚本：

function ajaxFunction()

{

var xmlHttp;

try

{

// Firefox, Opera 8.0+, Safari

xmlHttp=new XMLHttpRequest();

}

catch (e)

{

// Internet Explorer

try

{

xmlHttp=new ActiveXObject("Msxml2.XMLHTTP");

}

catch (e)

{

try

{

xmlHttp=new ActiveXObject("Microsoft.XMLHTTP");

}

catch (e)

{

alert("Your browser does not support AJAX!");

return false;

}

}

}

xmlHttp.onreadystatechange=function()

{

if(xmlHttp.readyState==4)

{

document.myForm.time.value=xmlHttp.responseText;

}

}

xmlHttp.open("GET","time.asp",true);

xmlHttp.send(null);

}

然后，您要做的只是改为对同一服务器的time.asp发出HTTP请求。来自w3schools的示例。

使用C ++进行高级抓取：

对于复杂的用法，如果您使用的是C ++，则还可以考虑使用firefox javascript引擎SpiderMonkey在页面上执行javascript。

Java高级抓取：

对于复杂的用法，如果您使用的是Java，则还可以考虑将firefox javascript引擎用于Java Rhino

.NET的高级抓取：

对于复杂的用法，如果您使用的是.Net，则还可以考虑使用Microsoft.vsa程序集。最近被ICodeCompiler / CodeDOM取代。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
ajax网页抓取java_网页抓取-如何抓取AJAX页面？

概述：首先，所有屏幕抓取都需要手动查看要从中提取资源的页面。在处理AJAX时，通常只需要分析一些内容，而不仅仅是HTML。在处理AJAX时，这仅意味着您想要的值不在您请求的初始HTML文档中，而是将执行javascript，该javascript请求服务器提供您想要的其他信息。因此，您通常可以简单地分析javascript并查看javascript发出的请求，而只需从头开始调用此URL。例：以这...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。