思考:恶意软件分析机器学习

2020/05/20 -
昨天下载了多个硕士或者博士的论文来查看恶意软件分类的进展。
看完并整理之后,给我的感觉就是,他们也是在研究机器学习方法。
当然,之前的那种性质依然存在,国外的论文都是强调研究的结果。

这里给我的感觉就是,机器学习依然是最大的赢家。
什么都在用,你看这里恶意软件分类也在使用。
但是,我想说的就是,其实更因该理解的是,恶意软件分析的关键问题是什么,不要沉浸在这个机器学习里面,这样没用。


仔细看了看那个综述,基本上算是涵盖了大部分的分析方法,可能发表比较早,没有涉及太多深度学习的方法。
然后还下载了一篇2018年的综述,还没完全看完,但是看了他对文献分类的过程,基本上算是跟我理解的一样。就是这些东西。
然后大致上明白了这个流程,静态分析,动态分析。
然后取出特征之后,利用机器学习方法。
让我的感觉就是,这种东西就是通过特征后,然后直接利用算法来完成。


我总感觉,他们之间非常的相似。都有这种基于指纹的方法和基于行为的方法。
包括这个恶意软件分析,还有之前的流量分类和入侵检测。
就感觉这些东西都一样。


2020/05/29 -
我前面的说法没有问题,可能不管是什么都是两种方案:

  1. 利用已知的知识,通过这部分知识来进行匹配,属于类似指纹的方法
  2. 建立正常的模型,然后利用这个模型进行偏离的测试,如果测试通过了,那么就是正常,不通过就是不正常。

恶意软件分析关键问题是什么呢。我觉得,你们说的各种方法,都逐渐脱离了这个关键问题,反而转向了机器学习内容了。其实关键问题应该是说,你在安全领域内容,能够对这个东西发现什么。
二进制分析又有什么呢?无外乎就是动态分析,静态分析,然后通过各种人工的特征工程来跑。

我举得,到这里,就出现了问题。但是我刚才的想法就是,如果在这里停了,那我之前所有的努力都白费了,就跟以前学习的所有的东西一样,都是在最后的时候,就放弃了。


所以,我需要思考的,不仅仅是这个问题本身, 更重要的,是这个怎么来解决这个问题,怎么思考这个问题。

2020/05/29 -
我的感觉就是,一个顺序的分析让我有一个比较平缓的过程。
而且,一个重要的思考过程是,不要把这个机器学习给融入进来,主要就停留在前面一些步骤,特征工程,或者什么的。
不过,因为我对这种序列化的学习内容不是很清楚,这个后续也将成为主要的思考内容。

那么,根据上面这些思考,我来整体缕一缕这个过程。

  1. 目的是什么:
    恶意软件的分析,如果是逆向的话,主要是想得到他的工作原理,以此来反制或者检测这些东西;那么对于恶意软件的分类应该怎么说?主要就是分为以下几个类别,你这个软件是不是恶意软件,你这个软件是不是属于某个恶意软件的家族。
    这是我暂时想到的内容。说白了,就是分类的过程。
    那么好了, 我这里要做的主要工作就是要进行恶意软件的检测,,如果是利用机器学习的方法,就是通过大量的样本,训练这个东西,但是对于这个训练的分类器内容,也是一个问题(就是之前说powershell的时候的问题)

  2. 数据样本是什么样的
    对于恶意软件来说,可能包含的东西很多,我不知道javascript这种东西是不是也属于,同时还有doc文件这种,估计这种不属于吧。那么单纯从软件来说,就是各种平台上的可执行文件,或者说动态链接库等,甚至可能是脚本吧。这里主要分析可执行文件这种,这些东西呢,主要都属于二进制文件,也就是说,是不可读的,各种乱七八糟的数据。

  3. 数据处理
    这个地方感觉就是一个小部分的关键内容了,比如说利用minhash的方法,或者说直接使用二进制图像的处理方法,甚至是直接利用动态分析的序列来进行识别分裂。

这里实质上就是特征工程的过程,这部分工作需要你完全将非数值化的数据转化为机器学习算法或者什么东西可以直接处理的内容。

基本上就是这些内容了。我觉得,不管是什么东西,都是这些步骤,对于机器学习算法来说,如果你没有加入什么特殊的东西,其实本质上就是一个模型而已,没有任何东西。关键步骤,就在于你使用什么样的特征。
当然,还有各种其他的什么,混合的方法等等。
现在来说就有些清晰了,但仅仅是大致上的框架清晰而已。
我看了今天下载的两篇博士论文,一个是南京理工,一个是北京科技,看了他们的论文之后,我又有点迷茫了,他们到底是想说什么呢?感觉没有什么自己原创的东西,就是借用了各种方法,然后弄出来。还是尽量多看一些有用的论文吧。

 

  • 2
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值