AdBlock广告拦截插件的实现原理

在这里,我不会解释太多的代码,没有必要,说说原理就可以了。

AdBlock的广告拦截实际上分为2个部分:

1、对于URL请求的拦截


这一般都是页面中DIV元素嵌入一个IFRMAE/IMAGE元素,然后加载一个广告链接或者GIF图片什么的。

这部分的规则库描述比较复杂。规则大概有几万条,即使对于国内的使用,可能也会有个1000条左右。

不过我觉得没必要搞这么复杂,可以通过提取出最常见的100条,然后用这100条屏蔽80%的请求,就可以了。

这些规则的语法,基本上是对于URL中domain和path的字符串前缀或后缀匹配。可能附带一些额外的属性(理论上说来,这些属性都应该可以从NetworkRequest对象中获取到)

AdBlock Plus的作者实际上是使用JavaScript把这些URL匹配规则映射为了正则表达式,然后再用正则表达式对目标URL进行匹配过滤。

当然,也可以用Java来实现。前面已经说了,正则表达式是基于前缀或者后缀的,前缀可以用Trie树,后缀可以反转后当作前缀处理。

而对于keyword in查询,可以使用基于编译自动机的AC算法(我认为AC算法其实就是一个简化版的 key1|key2|key3|...|keyn 这种形式的正则表达式而已)

一旦匹配上,在shouldOverrideUrlLoading函数里return true;代表已额外处理,实际上不处理,这样就屏蔽了此URL请求。(shouldOverrideUrlLoading主要是用于特殊的scheme协议的,用于URL请求拦截实属误用),好像有额外的shouldIgnoreNetworkRequest


2、对于页面DOM嵌入广告内容的处理

基于规则是,通过CSS3 Selector定位到这些DOM元素,然后设置其display等于none !important。

AdBlock Plus对于页面内容的广告过滤是特定于网站的,也就是说,是对于domain字符串的精确匹配。这里使用一个简单的HashMap性能也就足够可以了。

问题是,有些广告内容是延迟加载的(通过setTimer),对于这部分内容,只能等个几秒钟等广告内容出来之后,才注入执行JS脚本。

当然,这种方法不是很好,最好是在浏览器内核里做一个DOM Mutation事件监控的daemon:如果检测到有新的DOM节点加入,当然必须是在DOM Content Loaded之后,就发送一个通知给客户端,客户端再调度广告屏蔽脚本的重新执行。


上面2类处理看起来有效,实际上无效。设想网站要求用户必须访问广告服务器,以提高一个特殊的cookie,这样才允许用户访问资源。这样第1种方法其实就没用武之地了。对于第2种则更简单,原则上来说,如果把广告跟正常内容混合在一起,你是没办法用计算机算法来区分谁是广告谁是正常内容的,除非用人来维护。或者立法。

从个人角度考虑,某部分广告则让让它下载显示也无不可,如果用户觉得它烦,就提供一个规则添加的UI交互入口。而对于弹窗、闪烁的GIF这类比较恶心的,杀之可也。


1/15更新:

AdBlock Plus做到的优化:假如一个URL为a.b.c,那么这个URL只会跟过滤规则里包含a,或者b,或者c的规则做匹配,后者还是得一个一个的执行JS正则表达式线性匹配

好处就是那些规则中不包含a,b,c的将不会与这个url做匹配。这可能使得把一个10000条规则的总线性扫描降低到了1000条的规模。

 但是,它还是没有猎豹浏览器的做法好:AdBlock Plus最终URL与过滤规则的匹配还是用JS正则表达式来执行的(当然,JS里的字符串高级处理都只能用用正则表达式,逐个字符比较对JS代码来说不现实),猎豹对于简单的前缀/后缀匹配可以使用Trie树或AC自动机,但这是基于字符的,只能在Java里执行才有效率。

不过,我想,更有技术含量的,是引入协作式过滤:当用户标明网页中的某个元素属于广告,那么,浏览器内核可以智能地定位到这个DOM元素,并生成一个有效的CSS Selector(这个就是难度之所在了),这样就可以动态地扩展用户的本地过滤规则库,然后再通过上传到云端服务器形成大数据,从中挖掘出公共的广告拦截规则库。


  • 6
    点赞
  • 15
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
### 回答1: 弹窗拦截是一种常见的网络安全技术,它的原理是通过对网页中的弹窗进行拦截,防止恶意弹窗对用户的计算机造成危害。 在实现弹窗拦截的过程中,最关键的是如何识别并拦截弹窗。通常采用的方式是在浏览器中安装拦截插件或者应用,通过拦截网页中的弹窗 javascript 代码,从而实现对弹窗的拦截。同时,也可以针对弹窗的特征进行识别,例如弹窗的大小、位置、标题等,来判断是否为恶意弹窗。 需要注意的是,弹窗的拦截需要在用户同意的情况下进行,否则可能会被视为侵犯用户隐私,从而引起纠纷。因此,在实现弹窗拦截的过程中,需要遵守相关法律法规,保障用户的合法权益。同时,也需要对拦截到的弹窗进行记录和分析,以便识别和追踪恶意行为,并加强网络安全的防御能力。 总的来说,弹窗拦截是网络安全技术的一种重要手段,它可以有效地防止恶意弹窗对用户的计算机造成危害。在实现弹窗拦截的过程中,需要采用合法的方式进行,并加强对恶意行为的追踪和防御能力,以保障用户的合法权益和网络安全。 ### 回答2: 弹窗拦截是一种广泛应用于各种网站的浏览器插件,它可以拦截网站在页面弹出的广告窗口、提醒框、询问框等各种窗口,从而提升用户的浏览体验。下面我将详细介绍弹窗拦截实现原理。 一、运用 JavaScript 拦截弹窗 通常情况下,网站会在页面中嵌入 JavaScript 脚本,在合适的事件触发后执行弹窗操作。因此,如果拦截这些事件,就可以有效阻止页面中的弹窗行为。以下是一些常用的拦截事件: 1. onload 事件:用于在页面加载完成后执行操作,包括弹窗操作;可以通过覆盖 onload 函数,取消弹窗操作; 2. onbeforeunload 事件:用于在页面即将卸载前执行操作,包括弹窗操作;可以通过覆盖 onbeforeunload 函数,取消弹窗操作; 3. setInterval 函数:用于定时执行操作,包括弹窗操作;可以通过替换 setInterval 函数,让其不再执行弹窗操作。 二、运用浏览器 API 拦截弹窗 除了拦截 JavaScript 事件外,浏览器还提供了常用的 API,用于关闭或过滤特定类型的弹窗,比如: 1. window.open 方法:用于创建新的窗口,可以通过调用该方法时被拦截; 2. window.close 方法:用于关闭当前窗口,如果该窗口是通过 window.open 创建的,则可以通过此方法关闭。 3. DOM 操作方法:可以使用 DOM 操作方法,比如 getElementById、getElementsByTagName 等,过滤掉特定元素,从而达到拦截弹窗的效果; 4. 插件 API:有些浏览器插件可以拦截特定类型的弹窗,比如 Adblock Plus 插件可以拦截广告弹窗。 总之,弹窗拦截实现原理涉及到多种技术手段,包括 JavaScript 事件拦截浏览器 API 调用、DOM 操作、插件开发等。开发者可以根据实际情况选择合适的手段,提供更好的用户体验。 ### 回答3: 弹窗拦截是指通过技术手段拦截浏览器中弹窗窗口的出现,从而防止这些弹窗窗口对用户造成的干扰与不必要的骚扰。针对不同的弹窗拦截方法,其原理也会有所区别。 首先,最早期的弹窗拦截机制是基于弹窗的一些特征来实现的,例如弹窗窗口通常没有地址栏等特征。这种机制轻量化,不占用过多的计算资源,但是限制较大,还需要不断的更新以拦截新的弹窗窗口。 其次,随着弹窗威胁的不断增强,后来的弹窗拦截技术变得更加复杂和精细。其中比较重要的一种就是基于浏览器拓扑结构的基于黑白名单的拦截机制。黑白名单通常会对一些预定义的网站进行拦截,同时也要对一些不确定的网站进行过滤判断。这种机制需要耗费更多的计算资源,但是对弹窗的捕获率可以得到较大的提升。 另外,现代的弹窗拦截技术还可以基于机器学习等算法来提高拦截的效率。这种方法可以通过对海量的弹窗窗口进行分析,以此构建出更加健壮和精确的拦截模型。不过由于模型的构建需要比较大量的数据和计算资源,所以相对而言,这种机制也比较耗费资源。 总之,弹窗拦截原理是多种多样的,不同的机制都有各自的优缺点,需要根据实际需要做出适当的选择。同时,由于弹窗广告的种类和方式也在不断更新,弹窗拦截技术也需要不断的更新升级,以保证更高效的拦截率和更好的使用体验。
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值