Cobra的javascript执行问题

挨踢的架构师

于 2011-06-24 14:07:00 发布

阅读量1.1k

点赞数

分类专栏： Tech 文章标签： javascript mozilla google input go action

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/scariii/article/details/6565603

版权

Tech 专栏收录该内容

7 篇文章 0 订阅

订阅专栏

最近正在寻找一个网站爬虫的解决方案，目标是不仅能够把网站的页面“爬”下来，而且需要能够执行页面中的某些js脚本，以求得到js执行后的页面DOM树，这个问题恐怕也是爬虫面对很多富Ajax网站页面时的共同问题吧？！

在阅读了Kyle的大作http://hi.baidu.com/zhizhesky/blog/item/e4b1f6fada2652d5b58f314e.html之后，决定研究一下Cobra。

Cobra的确很强大，底层的js解析用到了Mozilla的Rhino。通过Cobra的确能够得到js执行后的DOM，但有个特例。那就是对于Form来说，所有的Input，其value不能被动态的改变，请看以下代码片段：

<html> <title>test javascript</title> <script language="javascript"></script> <body onLoad="javascript:go();"> <form name="gg" onClick="javascript:go();" action="#"> <input name="n1" value="baidu"> </form> </body> </html>

很不幸，Cobra在解析以上代码片段后，Form中n1的value并没有变成预期的google！

挨踢的架构师

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Cobra的javascript执行问题

最近正在寻找一个网站爬虫的解决方案，目标是不仅能够把网站的页面“爬”下来，而且需要能够执行页面中的某些js脚本，以求得到js执行后的页面DOM树，这个问题恐怕也是爬虫面对很多富Ajax网站页面时的共同问题吧？！在阅读了Kyle的大作http://hi.baidu.com/zhizhesky/blog/item/e4b1f6fada2652d5b58f314e.html之后，决定研究一下C
复制链接

扫一扫

专栏目录

挨踢的架构师 CSDN认证博客专家 CSDN认证企业博客

码龄21年

8: 原创

42万+: 周排名

83万+: 总排名

5万+: 访问

: 等级

495: 积分

8: 粉丝

3: 获赞

11: 评论

14: 收藏

私信

关注

热门文章

分类专栏

Tech 7篇

最新评论

避免hashcode重复
olddoor: 具体到算法的实现就看不懂了。
关于Linux下利用GPU对视频进行硬件加速转码的方案
linkscue 回复 blacksheep1314: 建议你直接下载 libva 进行编译测试 http://blog.csdn.net/myscue/article/details/49794855
避免hashcode重复
老焦: 楼主两位，明白楼主的用意吗？楼主在意的是节省内存，而不是解决JAVA集合存储重复数据的问题。。。。。
关于Linux下利用GPU对视频进行硬件加速转码的方案
blacksheep1314: 你好！hwdecode-demos编译的方式是否可以分享下，我的邮箱是30330427@qq.com，不胜感谢！
避免hashcode重复
mei_zi_365: 楼主的意思还不明白吗？楼主不想在hashset里存储爬虫爬过的url字符串，这样内存占用大。楼主只想知道，某个url之前有没有爬过。所以，只需要存储url对应的md5值或者hashcode，将要检测的url的md5或hashcode和缓存的做对比。问题在于，md5的长度，可能比大多数url长度相当。可行的是用hashcode，但是8位 int行hashcode重复概率大，所以楼主提出了生成long型hashcode的方案。似乎可行。那位兄弟帮着跑一下，看重复概率能到多少？我正在寻找一种替代java UID的方式，因为我项目需求是，对于同一个对象每次生成的UID都不能改变，只能寻求一种重复率极小（只存在理论上的重复率)的hash算法。

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。