提取javascript动态生存的网页

最近需要从http://www.nfm-transportlogistic.de/nfm/911/912.php?suche=aktivieren提取各个公司的信息,直接wget,发现没有内容,仔细分析,原来实际的信息是用javascript通过Ajax获得的,于是通过分析javascript找到Ajax后台的链接,模拟发送数据,还是无法获得。进一步分析javascript很难,于是想到是否可以直接在程序中模拟执行javascript,google到了几个相关信息,如下:

 

http://www.satwe.com/archives/971.html

http://wiki.python.org/moin/WebBrowserProgramming

 

但是还是觉得很复杂。想到可以用httpfox查看一下浏览器在获取页面内容的时候到底发送了什么 ,获得了发送的cookie等信息。发现由于进行了防盗链处理,还需要发送referer等内容,通过构造合适的post数据,利用curl发送个服务器,获得了页面内容。

 

可见如果有动态生成的页面内容,可以采用两种方式,如果页面很复杂,那么只能利用调用浏览器(比如Windows下可以用c#很容易调用IE)来获取动态执行javascript代码之后的DOM,当然这种方法处理速度很慢。如果页面比较简单,可以通过分析找到Ajax的服务器地址,则最好用httpfox等工具获取发送的信息,用curl模拟,这样获得的数据一般都是很规整的XML或者JSON,处理起来也较容易和快速。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值