通过机器学习识别恶意 URLs

本文介绍了通过机器学习方法识别恶意URL的实验,主要使用逻辑回归和SVM建立模型。通过TF-IDF对URL进行特征提取,利用LogisticRegression和SVM进行训练,并分析了SVM在高维数据下表现不佳的原因。最后,讨论了模型的局限性和可能的改进方案,如使用单一分类器学习正常URL特征以应对未知攻击。
摘要由CSDN通过智能技术生成

通过机器学习识别恶意 URLs

一、主要内容

识别恶意url,即将url分为正常的url和恶意url。属于机器学习中的二分类问题。本次实验使用逻辑回归[1]和 SVM 机器学习方法建立监测模型,对未知URLs进行恶意检测。

二、实验整体思路

  1. 分别拿到正常请求和恶意请求的数据集。

  2. 对无规律的数据集进行处理得到特征矩阵。

  3. 使用逻辑回归方式使用特征矩阵训练检测模型。

  4. 最后计算模型的准确度,并使用检测模型判断未知 URL 请求是恶意的还是正常的。

2.1 获取数据集[2]

good_fromE 某系统的某天的正常访问url,已去重

good_fromE2 同上

bad_fromE 利用sql注入某系统产生的url记录

badqueries 来源于网上数据(数据量较大)

goodqueries 来源于网上数据 (数据量较大)

恶意请求部分样本:

/top.php?stuff='uname >q36497765 #

/h21y8w52.nsf?<script>cross_site_scripting.nasl</script>

/ca000001.pl?action=showcart&hop=\"><script>alert('vulnerable')</script>&path=acatalog/

/scripts/edit_image.php?dn=1&userfile=/etc/passwd&userfile_name= ;id; 

/javascript/mta.exe

/examples/jsp/colors/kernel/loadkernel.php?installpath=/etc/passwd\x00

/examples/jsp/cal/feedsplitter.php?format=../../../../../../../../../../etc/passwd\x00&debug=1

/phpwebfilemgr/index.php?f=../../../../../../../../../etc/passwd

/cgi-bin/script/cat_for_gen.php?ad=1&ad_direct=../&m_for_racine=</option></select><?phpinfo();?>

/examples/jsp/cal/search.php?allwords=<br><script>foo</script>&
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值