用机器学习检测Android恶意代码

最新推荐文章于 2024-07-12 15:24:10 发布

技乐书香

最新推荐文章于 2024-07-12 15:24:10 发布

阅读量5.6k

点赞数 6

分类专栏：聊聊技术文章标签： python 安装恶意软件

本文链接：https://blog.csdn.net/qq_33256688/article/details/81434389

版权

聊聊技术专栏收录该内容

21 篇文章 2 订阅

订阅专栏

参考资料

本代码是参考乌云上的一篇文章实现的，链接如下：http://drops.xmd5.com/static/drops/mobile-13428.html
，实现了它关于特征提取的想法，如果有理解的不妥的地方，请大家帮忙指出。
代码的github地址（其实这篇博文就是该仓库中的README）：
https://github.com/DQinYuan/AndroidMalwareWithN-gram

原理

原理就不详细讲了，我参考资料中给的链接已经说得很清楚了，我就说一说原文中说得不是很清楚，我自己进行了一些揣摩理解的地方。

我以method作为单位进行提取，每个method看成互不相关的“句子”。以3-gram为例，如果method中的指令数目小于3的话则忽略该method。

原文按照一定的标准将指令分为MRGITPV七类，我按照Android4.1.2源码下的dalvik-bytecode.html对其进行了整理，所有的字节码到其分类的映射规则都位于/infrastructure/map.py文件中。

看原文的意思似乎最后的特征是通过汇总每种n-gram在app中出现的次数得到的，但是我思考了一下，如果app规模的大小相差很大的，这么做似乎不是很妥，因为规模大的app的指令出现数量自然应该倾向于比较多，比如我手头里的样本，恶意样本的规模大多都比较小，而良性样本的规模大多都很大，所以这里最终提取的特征是按照每种n-gram是否出现，如果出现过就为1，不出现就为0。我认为这样会更加合理的原因是，恶意软件往往都不是从头开始写的，大多数应该都是通过重用以前的代码而实现的，通过判断一种恶意n-gram是否出现应该能有一定的恶意软件鉴别效果。

如何运行

本软件是基于python3.6开发的，反汇编使用的工具是apktool，我已经将其放在了本仓库的根目录下，唯一的依赖是pandas，如果还没有安装的话，请使用pip install pandas安装。

首先在clone下来的目录下新建/smalis/malware和/smalis/kind两个文件夹（这两个是存放反汇编结果的目录）。

然后打开batch_disasseble.py，将27行的virus_root变量的值改成自己电脑上存放恶意软件apk样本根目录，32行的kind_root变量的值改成自己电脑上存放正常apk样本的目录，然后按照以下顺序执行命令即可（或者直接执行run.bat，里面写的就是这些命令）：

python batch_disasseble.py
python bytecode_extract.py
python n_gram.py 6
python n_gram.py 5
python n_gram.py 4
python n_gram.py 3
python n_gram.py 2

　其中batch_disasseble.py是用于反汇编apk的；

python bytecode_extract.py执行结束后会在当前目录生成一个data.csv，这个是在n-gram处理之前的特征，data.csv由SoftwareName,Feature,isMalware三个字段组成，分别代表软件名称，特征和是否恶意软件（是为1，不是为0），其中Feature字段是该app的所有操作码（被分为了MRGITPV七类表示），其中用"|"分隔不同的method。

python n_gram.py后面接的参数的含义就是n-gram中的n，命令运行结束之后会在当前目录生成一个n-gram.csv文件，比如python n_gram.py 2，命令执行结束后就会在当前目录生成一个2-gram.csv文件。

这些脚本我已经用自己手头上的样本运行过一遍了，本仓库根目录下的data.csv（因为超过了github限制的最大文件限制，所以没有上传），6_gram.csv（同样的原因没有上传），5_gram.csv，4_gram.csv，3_gram.csv，2_gram.csv就是我在那些样本上提取的特征。