ajax网页抓取java_支持AJAX的网页抓取工具的原型系统

之前发布的Krabber已经可以抓取执行了Javascript之后的网页。

比如新浪博客的评论,其内容是在网页加载后通过JavaScript显示出来的。这样普通的抓取工具加不能得到评论信息。Krabber 0.0.0.2已经可以做到抓取一定会执行的JavaScript网页,返回JavaScript执行之后的带有所需要信息的网页HTML。

现在的问题是,网页上很多内容是需要用户交互一下才能显示出结果的。比如基于JavaScript的评论结果翻页。直接使用Krabber 0.0.0.2只能得到第一页的结果。要想看到后面的评论,必须点击翻页,等待JavaScript执行之后才能看到结果。因此,这一版本的主要目标是实现一个可以模拟用户动作,触发一些网页上的事件,如点击下一页,之后抓取JavaScript的执行结果。

这一版本的Krabber 0.0.0.3 Preview已经实现了执行网页上的AJAX脚本。Krabber 0.0.0.3 Pre通过提供一个脚本执行机制,允许信息抽取工具提供需要执行的内容,并交由Krabber进行执行,然后由Krabber返回执行之后的结果。

当然目前的Preview还不能返回执行后的信息,但是已经能够展示执行AJAX的过程。大家感兴趣的话可以看一下这个原型系统。

Krabber 0.0.0.3 Preview由pinlin:senior编写,pinlin168@tom.com

posted on 2009-12-12 10:13 Senior 阅读(1774) 评论(0)  编辑  收藏 所属分类: Misc

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值