硕士_URL识别_工作

最新推荐文章于 2024-04-23 16:15:02 发布

BJFU_vth

最新推荐文章于 2024-04-23 16:15:02 发布

阅读量888

点赞数

本文链接：https://blog.csdn.net/weixin_41687289/article/details/83112636

版权

0x00: 第一周，10.10—10.16

所做的工作：
1.阅读论文

云安全模式下恶意URL实时检测系统的设计与测试
一种恶意网址检测系统的研究与设计
网页木马检测系统的研究与设计
社会网络中不良URL的研究
跨站点脚本攻击的检测技术研究
基于在线学习算法的恶意网页检测系统
基于云安全的恶意URL动态扫描系统的设计与测试王
基于云安全的恶意URL动态扫描引擎的设计与测试唐
基于威胁情报平台的恶意URL检测研究
基于数据挖掘的恶意网站检测技术研究
基于深度学习的恶意URL识别

2.做笔记：
大背景：WEB攻击随着互联网的发展越来越多了，攻击事件层出不穷，这类攻击的主要方式一般是网页挂马和钓鱼网页，所以进行恶意URL的实时监测很有意义。
研究方法：
1、云安全模式下恶意URL实时检测系统的设计与测试：
采用AC算法和TF-IDF余弦定理算法对挂马网页和钓鱼网页进行特征匹配，通过引擎与知识库的结合来实现对用户正在访问的恶意网页的实时监测和拦截，提出了’黑名单检测 + 网马特征匹配’的网马检测方案和’黑白名单匹配 + 页面相似度匹配’的钓鱼检测方案。
什么是网页挂马：攻击者入侵正常网站获得其部分权限后，将提前编制好的木马程序嵌入到该网站的正常页面中，这样当用户打开该网页时木马就会自动运行。挂马的方式主要有框架挂马，JS文件挂马，body挂马，CSS挂马，伪装挂马等。
网页挂马检测方式：静态检测和动态行为分析两大类。静态特征检测包括特征码匹配技术和启发式扫描技术。动态行为分析则主要包括沙盒、蜜罐的检测机制。
特征码匹配技术是应用最广泛的URL检测技术。将待检内容与特征值进行匹配来判断是否被挂马。特点：能够快速检测出已知特征的恶意网页，但由于其只能对已知特征进行检测，所以检测范围小，而且特征库中的字符串在正常的程序中也会用到，所以会有一定的误报率。
启发式扫描技术：检测引擎通过自身的规则库来分析待检文件的指令出现的顺序或者组合是否存在异常情况，对不同的特征进行加权，如果加权值综合超过恶意阈值，则可以判断为恶意。特点：对于未知的恶意代码有很好的检测作用，但是如果正常程序调用了恶意代码常用的功能，则很容易误判。
沙盒技术：为代码提供了一个与实际运行环境类似的虚拟运行空间，如果其运行行为是恶意的，则对其特征进行标记后系统回滚到程序运行之前的状态。特点：容易使程序突破虚拟边界劫持本地电脑权限，沙盒的实现代码可能也有漏洞，它提供的防护一旦被突破，利用简单的脚本即可突破它。
蜜罐技术：精心设置一个漏洞百出的系统，通过漏洞来引诱入侵者对其发动攻击。特点：可以记录攻击者对其的所有操作，保留攻击证据，蜜罐一旦被攻破，后果特别严重，而且蜜罐平时会消耗掉大量的系统资源，检测性能极低，不适合大量检测。
这篇论文提出的检测手段：黑名单+网马特征匹配。为了对抗特征匹配的高误报率，采用了强弱规则匹配的方案，如果待检URL匹配上强规则，直接判定为恶意。如果匹配上弱规则，则继续匹配并积分，达到一定的分值才判断为恶意。最大程度降低了系统的误报率。

什么是网络钓鱼：
网络钓鱼是一种网络诈骗行为，一般是用中奖信息等诱惑用户输入银行卡号，密码，身份证号等敏感信息来完成金融诈骗的一种行为。
主要的网络钓鱼攻击类型有以下几种：
假冒中奖网站
模仿银行、支付页面等金融相关网站
利用官方漏洞实现URL跳转
弹出窗口
网络钓鱼检测方式：
黑名单检测
URL特征匹配
页面相似度匹配
黑名单检测：目前使用最广泛的钓鱼检测机制，对于已知的钓鱼网站，安全厂商会直接将URL加入黑名单，一旦有用户再次访问这个网站，监测系统会直接将其阻断。由于每天都会有大量的新的钓鱼网站出现，并且一般来说钓鱼网站存活的时间都比较短，所以黑名单库需要不断的更新以维持其时效性。
URL特征匹配：通过分析待访问网页的URL是否具有钓鱼URL的特征来判断其是否为钓鱼网站。

2、一种恶意网址监测系统的研究与设计：
现有的恶意URL检测系统分析：
1、风云谷：
可以检测网页中含有的恶意代码，免费。对于加密的恶意代码效果不好，仅仅采用了传统的检测办法，误报率、漏报率较高。
2、狩猎女神：
检测结果准确，运行效率低下。
3、360：
很专业，但是广告较多，对国外恶意URL的支持较差，稳定性和兼容性不好。
4、卡巴斯基：
更新快，反应时间短，误报率高，价格昂贵，很吃系统资源。
5、诺顿：
对于中国的恶意URL支持很差。
本文的解决方案：
1、整理出尽可能准确的恶意URL黑名单
2、搜索恶意代码的特征码，制定一份恶意代码的特征库，以便对未知的URL进行判断。

3、网页木马检测系统的研究与设计：
机器学习：学习是人类的一项重要技能，学习是一种过程，这个过程是可以从过去的经验中吸取教训的。
机器学习是AI（人工智能）中非常重要的部分，它是学习的一种，机器指的是计算机。机器学习是研究让计算机模拟人类的学习行为的学科。研究的主要内容是计算机如何获取新技能和新知识，同时还能做到识别现有知识。
机器学习的研究可以通过3个方面来阐述：
学习机理：对人类学习的先天能力的研究
学习方法：通过对生物学习机理的简化，总结出相关领域的学习算法，并且完成对生物学习行为的再现。
学习系统：根据特定需求，创建学习系统。
机器学习分类算法：
分类模型把一个未确定类别的样本判定为已知的类别。如果从恶意网页中找出能够代表网马的特征，把特征作为分类器的输入，那么得出分类结果之后就能知道网页的类别了。常见的分类算法：朴素贝叶斯，决策树，神经网络，支持向量机，K最近邻。

4、社会网络中不良URL的研究：
无针对以上论文的创新点。
5、跨站点脚本攻击的检测技术研究：
跨站脚本：通常指的是攻击者往WEB页面里插入恶意HTML代码，当用户浏览该页面时，恶意代码会被浏览器执行从而达到攻击用户的目的。安全圈一般称之为XSS.
跨站脚本的攻击手段一般有3种：反射型跨站点脚本，保存型跨站点脚本，基于DOM跨站点脚本。
反射型跨站点脚本，攻击者一般会发布一个热点信息的连接，该链接的参数部分包含有恶意脚本代码，吸引用户点击。我们恶意URL检测主要是检测这种类型的跨站脚本。
我们可以通过对参数中的脚本标签进行识别来分析这是否是恶意的URL。

6、基于在线学习算法的恶意网页检测系统
在线学习算法是一种增量的学习方法，每次用一个样本做训练，然后根据损失函数调整权向量。相比批量学习算法，在线学习算法更适合处理URL特征，原因如下：
在线学习算法能更有效的处理大量样本，可以及时的调整分类器去学习新的样本。
在线学习算法：感知器/PA/CW
7、8 基于云安全的恶意URL动态扫描引擎的设计与测试唐王
没有找到有价值的信息。
9、基于威胁情报平台的恶意URL检测研究
目前针对恶意 URL 的检测主要分为两类：一类是基于网页内容的检测，另一类是基于 URL 字符串的检测。
（１）基于网页内容的检测恶意 URL 往往需要通过网页内容来体现其恶意行为，因此通过截获网页内容对恶意 URL进行检测最为直接。基于网页内容的检测主包括利用网页的标签、JS 代码、网页漏洞信息及链接关系等检测方法，通过对网页的特征匹配实现恶意URL的检测。特点：基于网页内容进行恶意 URL 识别的方法具有较高的准确率，但是需要大规模地采集网页内容。当用户点击一个URL 时，网页采集与分的时间难以令人满意，并且当人们打开一个恶意网页时也可能存在潜在的威胁。
（２）基于 URL 字符串的检测针对基于网页内容检测恶意 URL 的效率问题，通过URL 字符串进行检测的方法具备较好的适用性。基于 URL字符串的检测包括黑名单和 URL 特征识别两种方法。传统的黑名单方法通过构建一张 URL 黑名单列表，将待检测的 URL 与黑名单进行匹配，如果匹配成功就确认其是恶意URL 。一些浏览器、杀毒软件等的网址过滤机制均采用了该方法。
URL特征可以分为基于词汇的特征和基于主机的特征。词汇特征利用词袋模型（bag of word）将URL 分割的每一个词汇都作为特征，并且对词汇出现在URL 的位置做了区分；主机特征主要包括 URL 的地理位置和 WHOIS 等属性。该方法拥有成千上个特征属性，采用大规模在线学习的方式对恶意 URL 进行检测。
URL的结构特征：
第一个结构特征是 URL 点的个数，URL 中“ · ”的个数能反映出二级域名、三级域名的存在情况。由于恶意 URL通常依靠高仿域名主体诱导用户点击，因此点的个数越多，URL 就越危险。
第二个结构特征是 URL 的长度，它从一定程度反映出了 URL 的危险性，通常 URL 越长其危险性越高。
第三个结构特征为 URL 是否存在大写字母。在正常的URL 中很少出现大小写混合的情况，因此存在大写字母的URL 也存在一定的威胁。
第四个结构特征为 URL 是否存在特殊字符。恶意 URL通常包含一些特殊字符来迷惑用户，例如“ ～ ”“ ！”“＠ ”“ ＄ ”“∧”“-”等字符，我们通过使用正则表达式将这些 URL 过滤出来。
第五个结构特征为 URL 是否存在 IP 地址。通过 IP 地址替代部分域名也是恶意 URL 经常使用的手段，我们通过使用正则表达式过滤出含有 IP 地址的 URL 。

URL 的情报特征：
URL 的情报特征包含了 URL 所在服务器的物理位置、URL 域名注册时间、URL 的 Alexa 排名、URL 的Page-Rank值４个特征和 URL 的信誉度标签。
第一个情报特征是 URL 所在服务器的地理位置。由于国内严格的备案和审查机制，大多数违法网站都将服务器部署在国外。
第二个情报特征是 URL 域名的注册时间。通过在 DNS信息库中查询该 URL 的域名基础信息，可以获取对应域名的注册时间。恶意 URL 的域名由于受到检测而经常被封杀，因此恶意 URL 的域名更换十分频繁，其注册时间也往往很短。
第三个情报特征是 URL 的 Alexa 排名。正常的 URL 排名通常靠前，恶意 URL 的 Alexa排名靠后，因此可以将 Alexa 排名作为 URL 的一个特征。
第四个情报特征是 URL 的 PageRank 值。 PageRank 通过网络的链接关系来确定一个页面的等级，评分在０～10 之间。恶意 URL 的页面链接关系很小，其 PageRank 评分往往接近于０。因此，文本将 PageRank 作为 URL 的一个重要情报特征。

10、基于数据挖掘的恶意网站检测技术研究
首先提出了建立易受攻击网站名单，在此基础上提出了基于加权距离的新特征提取方案。恶意网站通常是在正常网站的基础上进行了一定程度的更改，根据更改类型设定不同的权重，提出了加权距离的概念，对输入的URL，计算其与易受攻击网站名单中的URL的最近加权距离的距离，作为新的特征。
用到的数据挖掘算法：支持向量机，聚类算法，逻辑回归模型，J48决策树，KNN。
通过对大量的钓鱼网站分析发现，钓鱼URL通常采用增加删除或者改变部分正常URL的某些字符，来混淆普通用户。所以提出了URL加权概念，把URL看成对应的字符串，计算他们之间的加权距离。

11、基于深度学习的恶意URL识别
与9类似。