html parser c3,XSS语义分析的阶段性总结（二）

weixin_39959369

于 2021-07-06 02:59:06 发布

阅读量104

点赞数

HTML解析 XSS扫描 payload生成安全检测语法树

关键词由CSDN通过智能技术生成

classMyHTMLParser(HTMLParser):defhandle_starttag(self, tag, attrs):print( "Encountered a start tag:", tag)

defhandle_endtag(self, tag):print( "Encountered an end tag :", tag)

defhandle_data(self, data):print( "Encountered some data :", data)

parser = MyHTMLParserparser.feed( '

Test''

Parse me!

我们需要定义一个我们自己的 HTML 解析器来处理我们的标签，标识出来标签，html注释，html标签，属性，css等等

部分代码如下

寻找反射点的思路和js的类似，通过遍历标签来来解析html结构， tagname 代表标签名， attibutes 代表属性， content 代表数据内容， #comment 代表注释，每个标签被封装为字典形式的列表元素

使用以下的demo

![4](K:git blogEthancck.github.iohexosourceimagesx3scan14.png)![4](K:git blogEthancck.github.iohexosourceimagesx3scan14.png) < html>< body>< ahref= "?q=1&w=2&e=3&r=4&t=5">test a>< style>body{background: #aaaflag{ 111222};} style>< >vara = 'xx';flag{ 111222} >< div>< textarea>flag{111222} TexTarea>kkk div>ffff < aaaaa>bb< inputstyle= "color:flag{111222}"value2= "flag{111222}"aflag{ 111222}= "aaa"/> body> html>

处理后的效果

处理完html标签，接下该寻找sink输出点在html的上下文。思路跟js的寻找思路是相同的

通过遍历列表内容来找到我们的 input ，部分代码如下：

最后会给出输出点上下文的一些细节信息，如是否是html标签等等

然后根据不同的上下文给出我们的payload，使用html语法树有很多好处，比如可以准确判断回显的位置

探究发包

X3Scan的扫描思路参考了一些xray的扫描思路，比如不发送一些产生危害的payload，只根据回显的上下文发送一些flag测试一些关键字符是否被转义和过滤，如<>,".',等，如果没有过滤最后给出建议payload，如： confirm

首先对于无法使用html和js解析的回显，如jsonp和json格式的相应包，我们使用如下的发包顺序：

随机flag ---》判断回显 ----》解析找不到回显 ---》发送 ---》判断响应包中字符是否转义---》给出payload

最后给出的payload，对与jsonp_xss这里有一个tip，正常情况下判断jsonp_xss，会首先判断 content-type 是包含 text/html ，然后继续测试，实际测试中当 content-type 为空时，也可能存在xss漏洞，因此应该对两种情况都进行一下判断。

if'html'in(resp_headers. get( "content-type", "").lower) or resp_headers. get( "content-type")==None:

对于html标签内的内容

xxxxx

扫描器会依次发送 0xb9d8c ，当确认标签可以闭合，会给出

对于标签属性

demo:https://brutelogic.com.br/xss.php?b3=

扫描器会依次发送 0xb78123 ， 'psafq=' ， '> ， "psafq=" ， "> ，当确认引号和尖括号没有被过滤时，最终给出 "> ， "OnMoUsEoVeR=confirm// 。

对于html注释

` `

扫描器会依次发送 0xfda748 ， --> ， --!> ，当确定 --> 或 --!> 没有过滤时，给出payload， -->

对于标签的回显

扫描器会依次发送 0x829a5c ， -829a5c- ， ><>dncjbwv> ，当最后确认 > 未被过滤时，最终给出payload， ><>confirm>

另外一种情况就是回显到标签的注释里面

使用以下demo

< html>< body>< >var a = 1;// inline <?phpecho $_GET[ "a"]; ?>/*<?phpecho $_GET[ "b"]; ?>*/ > body> html

扫描器会依次发出 0x829a5c ， -829a5c- ， ><>dncjbwv> ， n;rmhwe;// ，最后给出payload， ><>confirm> , /n;prompt(1);// 。

对于块注释，扫描器会依次发出， 0xc13f ， */0xc13f;/* ，最后给出payload， */prompt(1);/*

通过上面的分析，我们可以发现使用html语法树有很多好处，比如通过发送一个随机payload，例如： ,然后通过html语法树检测是否有 wrqweew 这个标签，便可以确定payload是否执行成功了。

对于回显在js的情况，发送测试payload后，通过js语法树解析确定 Identifier 和 Literal 这两个类型中是否包含，如果payload是 Identifier 类型，就可以直接判断存在xss，最后给出payload， confirm;// 。如果payload是 Literal 类型，再通过单双引号来测试是否可以闭合。

另外，还有一些比较精致的技巧，比如对payload的随机大小写，由于html对大小写是不敏感的，但是一些waf由于设计缺陷能会被绕过。

大致流程

扫描器大致流程：

发送随机字符 --》确认参数回显---》通过html/js解析确认回显位置--》根据回显的上下文发送不同的payload进行测试--》使用html，js语法树解析是否多出来标签，属性，js语句等来确定是否执行成功

成果展示

由于一直处于开发阶段，并没进行大规模测试，但是偶尔也会有个小惊喜，某次调bug的时候发现京东某站的xss