当浏览器接受到一份HTML代码后,会对标签之间(<p>xxx</p>等,<script>除外)、标签的属性中(<a href='xxxx'>)进行实体字符解码变为相应的字符,而不会发挥出其本来该有的功能,如:<被解码为<后仅被当作字符,而不会被当成标签名的起始。既然是字符串,那在href='xx'这些属性值本来就是字符串的地方可以作为一种可能的绕过的手段。如:
<a href="javascript:alert(1)"></a>
被解释后为<a href="javascript:alert(1)"></a>,可以弹窗。
在代码被HTML解释器解释后,如果遇到需要填入url的位置,则该位置交由url解释器解释,如果是js代码的(例如οnclick=""),就js解释器解释。如:
<a href='javascript:alert(1)'>
中,href=‘url’中的url会被url解释器解释(注意javascript:不能用url编码代替,因为javascript:为协议类型,若是使用url编码,会被当作普通字符串,后面的js代码也不会被当作js代码解释)。如:
<a href="javascript:%61%6c%65%72%74%28%31%29"></a>
被url解释器解释完后为<a href="javascript:alert(1)"></a>,url中出现了javascript:,指明了后面的语句要当作js执行,所以再次把解释后的字符交给js解释器解释,可以弹窗。
当js解释器在标识符名称(例如函数名,属性名等等)中遇到unicode编码会进行解码,并使其标志符照常生效。而在字符串中遇到unicode编码时会进行解码只会被当作字符串。如:
<script>\u0061\u006c\u0065\u0072\u0074(1)</script>
解码后为<script>alert(1)</script>,一样可以弹窗。但如果是
<script>document.write('\u0039\u0041\u0059\u0097\u0108;\u0101\u0114\u0016\u0040\u0039\u0049\u0049\u0049')</script>
解码后为 <script>document.write(' ');alert('111')</script>就不要指望他可以弹窗了。因为解码出来的');alert('111仍为被当作字符串而不会影响上下文。
结合上面的规则,我们可以构造出一些payload绕过过滤了。
更详细的解释:http://bobao.360.cn/learning/detail/292.html