1. 背景和意义
在早期的网站设计中,网页的存在形式都是静态的。静态的网页内容稳定,不会经常更新,但是在后期却不易维护。如果需要维护更新网页,则必须重新编辑HTML网页,因此当网站很庞大的时候,维护静态网页的工作量几乎是不能容忍的。随着时代的发展,在这方面发展出来一大批的动态网站技术,比如JSP,ASP,PHP等。这些网站技术的动态性主要体现在其相应网页的形成过程是动态的,即网页内容会根据用户的需求和和选择而动态的改变,而需要改变的内容则来源于数据库。虽然这样的技术更符合时代的需求,但是动态网页也容易受到一些攻击,最为常见的应用层攻击就有XSS攻击,SQL注入攻击等。其中XSS攻击是:攻击者在Web网页内注入恶意的脚本代码,然而当信任服务器的用户打开该网站浏览该网页的时候,嵌入在Web网页内的恶意代码就会在用户知情的情况下被执行,从而达到攻击的目的。
网络爬虫的主要功能是自动浏览并扒取互联网网页。网络爬虫是搜索引擎的基础架构之一,它决定着是搜索引擎的数据来源,如果一些存在XSS漏洞的网页被网络爬虫所扒取的话,用户在使用搜索结果的时候,很容易受到XSS攻击,因此搜索引擎的性能评价肯定会收到影响。[1]
由于以上的原因,可见在网络爬虫进行网页获取的时候,对网页进行XSS漏洞检测的重要性。这样做的目的,不仅可以保护搜索引擎用户的安全性,同时也可以间接的遏止XSS攻击的传播。
2. 相关技术介绍
2.1. XSS漏洞
由于在HTML语言允许嵌入脚本语言,从而导致了脚本的安全问题。其中XSS(Cross SiteScript)是最为常见的脚本攻击方法。XSS攻击是攻击者将自己的脚本代码注入到有Web应用程序生成的网页中,当有用户浏览该网页时,攻击者的脚本可以被解释执行,从而达到攻击的目的。
2.1.1. XSS漏洞分类
XSS可以主要分为以下3种:
(1).非持久性XSS(Reflected XSS)
顾名思义,这种类型的XSS攻击是非持久化的。它常出现在Web客户端向Web服务器发送一些请求时,在请求中携带恶意脚本代码。当请求被响应时,请求中的恶意脚本代码有可能被执行,从而受到攻击。这样的攻击是非持久化的,它必须用户在点击带有恶意代码的链接时才会引起。
(2).持久性XSS(Stored XSS)
这类的XSS漏洞主要是已经被持久化到了网站的数据库内。当动态网页动态生成的时候,网页生成器从数据库中调用数据,而持久化XSS漏洞则可能存在这些数据中,即有可能已经有恶意脚本代码存在于这些,所以只要用户浏览该网页,恶意脚本代码就会被解释执行,从而受到攻击。最常见的持久化XSS攻击,就是在网站的留言板中输入恶意脚本代码并提交,如果该网站不对提交的留言就行XSS防御的话,那么该携带恶意脚本代码的浏览就会被持久化进数据库。
(3).基于DOM的XSS(DOM-based XSS)
基于DOM的XSS攻击主要存在于页面中客户端本身。客户端的脚本程序是可以通过本地的DOM动态地改变页面内容,但是如何这些DOM的数据没有经过严格的检查确认的话,那么就可能存在DOM-based XSS。