通过机器学习识别恶意 URLs

最新推荐文章于 2024-06-11 00:07:45 发布

Ronnyz

最新推荐文章于 2024-06-11 00:07:45 发布

阅读量2k

点赞数 1

分类专栏：机器学习

本文链接：https://blog.csdn.net/Ronnyz/article/details/106680219

版权

本文介绍了通过机器学习方法识别恶意URL的实验，主要使用逻辑回归和SVM建立模型。通过TF-IDF对URL进行特征提取，利用LogisticRegression和SVM进行训练，并分析了SVM在高维数据下表现不佳的原因。最后，讨论了模型的局限性和可能的改进方案，如使用单一分类器学习正常URL特征以应对未知攻击。

摘要由CSDN通过智能技术生成

通过机器学习识别恶意 URLs

一、主要内容

识别恶意url，即将url分为正常的url和恶意url。属于机器学习中的二分类问题。本次实验使用逻辑回归[1]和 SVM 机器学习方法建立监测模型，对未知URLs进行恶意检测。

二、实验整体思路

分别拿到正常请求和恶意请求的数据集。
对无规律的数据集进行处理得到特征矩阵。
使用逻辑回归方式使用特征矩阵训练检测模型。
最后计算模型的准确度，并使用检测模型判断未知 URL 请求是恶意的还是正常的。

2.1 获取数据集[2]

good_fromE 某系统的某天的正常访问url，已去重

good_fromE2 同上

bad_fromE 利用sql注入某系统产生的url记录

badqueries 来源于网上数据（数据量较大）

goodqueries 来源于网上数据（数据量较大）

恶意请求部分样本：

/top.php?stuff='uname >q36497765 #

/h21y8w52.nsf?<script>cross_site_scripting.nasl</script>

/ca000001.pl?action=showcart&hop=\"><script>alert('vulnerable')</script>&path=acatalog/

/scripts/edit_image.php?dn=1&userfile=/etc/passwd&userfile_name= ;id; 

/javascript/mta.exe

/examples/jsp/colors/kernel/loadkernel.php?installpath=/etc/passwd\x00

/examples/jsp/cal/feedsplitter.php?format=../../../../../../../../../../etc/passwd\x00&debug=1

/phpwebfilemgr/index.php?f=../../../../../../../../../etc/passwd

/cgi-bin/script/cat_for_gen.php?ad=1&ad_direct=../&m_for_racine=</option></select><?phpinfo();?>

/examples/jsp/cal/search.php?allwords=<br><script>foo</script>&