用机器学习检测Android恶意代码

参考资料

本代码是参考乌云上的一篇文章实现的,链接如下:http://drops.xmd5.com/static/drops/mobile-13428.html
,实现了它关于特征提取的想法,如果有理解的不妥的地方,请大家帮忙指出。
代码的github地址(其实这篇博文就是该仓库中的README):
https://github.com/DQinYuan/AndroidMalwareWithN-gram

原理

原理就不详细讲了,我参考资料中给的链接已经说得很清楚了,我就说一说原文中说得不是很清楚,我自己进行了一些揣摩理解的地方。

我以method作为单位进行提取,每个method看成互不相关的“句子”。以3-gram为例,如果method中的指令数目小于3的话则忽略该method。

原文按照一定的标准将指令分为MRGITPV七类,我按照Android4.1.2源码下的dalvik-bytecode.html对其进行了整理,所有的字节码到其分类的映射规则都位于/infrastructure/map.py文件中。

看原文的意思似乎最后的特征是通过汇总每种n-gram在app中出现的次数得到的,但是我思考了一下,如果app规模的大小相差很大的,这么做似乎不是很妥,因为规模大的app的指令出现数量自然应该倾向于比较多,比如我手头里的样本,恶意样本的规模大多都比较小,而良性样本的规模大多都很大,所以这里最终提取的特征是按照每种n-gram是否出现,如果出现过就为1,不出现就为0。我认为这样会更加合理的原因是,恶意软件往往都不是从头开始写的,大多数应该都是通过重用以前的代码而实现的,通过判断一种恶意n-gram是否出现应该能有一定的恶意软件鉴别效果。

如何运行

本软件是基于python3.6开发的,反汇编使用的工具是apktool,我已经将其放在了本仓库的根目录下,唯一的依赖是pandas,如果还没有安装的话,请使用pip install pandas安装。

首先在clone下来的目录下新建/smalis/malware和/smalis/kind两个文件夹(这两个是存放反汇编结果的目录)。

然后打开batch_disasseble.py,将27行的virus_root变量的值改成自己电脑上存放恶意软件apk样本根目录,32行的kind_root变量的值改成自己电脑上存放正常apk样本的目录,然后按照以下顺序执行命令即可(或者直接执行run.bat,里面写的就是这些命令):

python batch_disasseble.py
python bytecode_extract.py
python n_gram.py 6
python n_gram.py 5
python n_gram.py 4
python n_gram.py 3
python n_gram.py 2

​  其中batch_disasseble.py是用于反汇编apk的;

​ python bytecode_extract.py执行结束后会在当前目录生成一个data.csv,这个是在n-gram处理之前的特征,data.csv由SoftwareName,Feature,isMalware三个字段组成,分别代表软件名称,特征和是否恶意软件(是为1,不是为0),其中Feature字段是该app的所有操作码(被分为了MRGITPV七类表示),其中用"|"分隔不同的method。

python n_gram.py后面接的参数的含义就是n-gram中的n,命令运行结束之后会在当前目录生成一个n-gram.csv文件,比如python n_gram.py 2,命令执行结束后就会在当前目录生成一个2-gram.csv文件。

这些脚本我已经用自己手头上的样本运行过一遍了,本仓库根目录下的data.csv(因为超过了github限制的最大文件限制,所以没有上传),6_gram.csv(同样的原因没有上传),5_gram.csv,4_gram.csv,3_gram.csv,2_gram.csv就是我在那些样本上提取的特征。

仓库中的数据说明

5_gram.csv,4_gram.csv,3_gram.csv,2_gram.csv前600个样本是恶意样本,后面583个样本是良性样本

软件模块

概述:batch_disasseble.py,bytecode_extract.py,n_gram.py是三个可以直接执行的脚本,/infrastructure下的模块全部是给这些脚本提供一些封装好的基础设施,比如smali解析等等。

batch_disasseble.py:将恶意apk从指定目录反汇编到/smalis/malware/目录下,将良性apk从指定目录反汇编到/smalis/kind/目录下的脚本

bytecode_extract.py:将字节码从smali文件中提取出来并映射成其分类,最终存储到当前目录下的data.csv的脚本

n_gram.py:将data.csv提取n_gram特征转换成n_gram.csv的脚本

infrastructure.map:我在这里配置了所有字节码到MRGITPV分类的映射关系

infrastructure.smali:Smali类的每个实例代表一个smali文件,用于封装解析smali文件的逻辑

infrastructure.ware:Ware类的实例代表一个安卓app,该类的实例会包含多个Smali实例,这些Smali实例都是从该app反汇编得到的smali文件得到的

发布了35 篇原创文章 · 获赞 113 · 访问量 18万+
展开阅读全文

没有更多推荐了,返回首页

©️2019 CSDN 皮肤主题: 编程工作室 设计师: CSDN官方博客

分享到微信朋友圈

×

扫一扫,手机浏览