浏览器客户端智能自动化：如何取得页面中JavaScript运行时动态生成的URL？

志_祥

于 2015-06-30 11:14:09 发布

阅读量1.5k

点赞数

CC 4.0 BY-SA版权

分类专栏：编译器技术 WebKit 读书笔记文章标签：浏览器 chromium 自动化阅读 javascript

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/cteng/article/details/46693091

读书笔记同时被 3 个专栏收录

275 篇文章

订阅专栏

42 篇文章

订阅专栏

编译器技术

32 篇文章

订阅专栏

浏览器客户端智能自动化：如何取得页面中JavaScript运行时动态生成的URL？

需求

“页面智能拼接”指的是通过启发式查询DOM树，判断出“下一页”链接，取出其href属性。Chromium的官方插件DOM Distiller完成类似的工作，主要目的就是为了将多页点击流程变成单页的Ajax连续阅读体验。

问题是，现在有些网站为了阻止浏览器客户端这么做，将href属性设置为"#"（或javascript:void()），然后在其onclick事件里绑定一个JS handler，动态生成下一页的URL。

这种情况下，如何还能完成客户端自动化地取得下一页的URL呢？

方法1：用JS实现一个JavaScript源代码解释器

如果能够获得onclick handler的JS源代码，则可以实现一个JavaScript源代码解释器，JS解释器实际上早就有人实现过了（需要虚拟一个假的全局window对象、执行上下文、代理DOM树的访问，以及最后截获window.open请求或location赋值语句）。

关键问题是，无法获得onclick handler的JS源代码！你只能得到一个JS Function对象。不过Function对象的prototype.ToString好像是可以得到源代码的？（待测试验证）

方法2：设置特定的“期望”数据结构，但网络模块底层拦截这个请求

这个方法则需要在内核里做修改。实现难度可能简单一点：

当分析到链接元素的href='#'时，向元素发送一个虚拟的click事件（非真实用户发出的UI交互操作），
同时向网络层net模块IPC发送一个expect数据结构：“请捕获接下来的一个main document网络请求，其referer是当前URL，把这个请求URL发给我”
这里似乎可能发生错误的匹配，请参考信息论/编码论相关理论。
链接元素的click handler将正常执行，同时触发新URL请求，由于之前设置了期望匹配，此URL请求将被捕获
Browser UI主线程收到这个新URL，执行接下来的处理

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。