浅谈精准提取日志中的URL

最新推荐文章于 2021-08-09 17:40:38 发布

Coisini、

最新推荐文章于 2021-08-09 17:40:38 发布

阅读量1.9k

点赞数

分类专栏：安全开发 web安全实战篇文章标签：日志URL 精确提取URL web 安全

本文链接：https://blog.csdn.net/kclax/article/details/93632329

版权

背景

在分析日志的时候发现有些日志中参数中包含其他的URL，例如：

http://www.xxx.cn/r/common/register_tpl_shortcut.php?ico_url=http://www.abcfdsf.com/tg_play_1121.php&supplier_id=3&ep=tg&style=szsg_reg_tg03

http://b.xxx.cn?c=<IMG src="http://www.thesiteyouareon.com/somecommand.php?somevariables=maliciouscode">

http://b.xxx.cn?c=<SCRIPT a=">" src="http://xss.ha.ckers.org/a.js"></SCRIPT>

提取请求参数中的URL(xss.ha.ckers.org)，再对比威胁情报数据库，如果命中黑名单直接标黑。如果不在黑名单，也不在公司的白名单里可以先做个标记，后续着重分析。

提取URL

关于URL的提取网上有很多文章，大部分都是是使用正则表达式，方法简单但是不太准确。我这里提供一种方法：采用词法分析，提取域名和IP。思路借鉴了这篇文章：https://blog.csdn.net/breaksoftware/article/details/7009209，有兴趣的可以去看看，事实证明跟着大神确实涨姿势。

原文是用C++版本，这里我用Python写了一个类似的，供大家参考。

常见的URL分类

IP形式：192.168.1.1，10.20.11.1

Domain形式：baidu.com、www.sina.com，freebuf.com

观察可以见得：IP形式的URL结构最为简单：4个小于255的数字被.分割；domain形式比较复杂，但是它们有共性：都具有顶级域名.com。

定义合法字符：

legalChars = "abcdefghijklmnopqrstuvwxyzABCDEFGHIJKLMNOPQRSTUVWXYZ-_"
legalNumers = ['0', '1', '2', '3', '4', '5', '6', '7', '8', '9']

顶级域名列表：

topLevelDomain = ['biz', 'com', 'edu', 'gov', 'info', 'int', 'mil', 'name', 'net', 'org', 'pro', 'aero', 'cat', 'coop',
              'jobs', 'museum', 'travel', 'arpa', 'root', 'mobi&

最低0.47元/天解锁文章

Coisini、

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
浅谈精准提取日志中的URL

背景在分析日志的时候发现有些日志中参数中包含其他的URL，例如：http://www.xxx.cn/r/common/register_tpl_shortcut.php?ico_url=http://www.abcfdsf.com/tg_play_1121.php&supplier_id=3&ep=tg&style=szsg_reg_tg03http://b.xxx...
复制链接

扫一扫

专栏目录