用于识别恶意移动应用程序的可扩展和准确的特征表示方法

最新推荐文章于 2024-09-30 13:49:56 发布

知识的小海洋

最新推荐文章于 2024-09-30 13:49:56 发布

阅读量219

点赞数

文章标签：人工智能深度学习机器学习

本文链接：https://blog.csdn.net/lllccui/article/details/130264268

版权

随着智能手机恶意应用的激增，研究提出了一种新方法，结合静态分析和机器学习，尤其是Doc2Vec，以提高大规模数据中恶意应用检测的准确性和效率。在49,045个良性样本和12,685个恶意样本上，方法的F值达到0.995，误报率低至0.48%，处理时间压缩至18分钟以下，优于传统机器学习和深度学习方法。" 107712642,9953002,iOS静态库开发详解与实践,"['iOS开发', '静态库', 'Xcode设置', 'Objective-C', 'C语言', 'C++']

摘要由CSDN通过智能技术生成

孙波

国家信息和通信技术研究所

日本国立信息与通信技术研究所

东京，日本

bo_sun@nict.go.jp

Yeali S.Sun

信息管理系

管理系，国立台湾大学

讯息管理系，国立台湾大学

台湾，台北

sunny@ntu.edu.tw

班涛

国家信息与通信技术研究所

沟通技术研究所

东京，日本

bantao@nict.go.jp

高桥武国立信息通信技术研究所

国立信息与通信技术研究所

东京，日本

takeshi_takahashi@nict.go.jp

张顺杰

网络安全技术研究所、

信息产业研究所

台北，台湾

scchang@iii.org.tw

井上大辅国家信息和通信技术研究所

日本国立信息与通信技术研究所

东京，日本

dai@nict.go.jp

摘要随着智能手机使用量的急剧增长，新的恶意移动应用程序的数量也迅速增加。在大规模的数据集中识别恶意应用程序是非常密集和耗时的。以前的多项研究都集中在使用机器（或深度）学习技术实现恶意应用检测过程的自动化。然而，对于大规模应用来说，仍然缺乏一个可扩展和准确的解决方案。因此，在这项研究中，我们提出了一种新的方法来提高发现恶意应用程序的准确性，并减少处理分析的计算时间。我们实现了我们提出的方法，结合了数据收集、静态特征提取和机器学习算法。使用从一个移动应用商店收集的大型数据集，包括49,045个良性样本和12,685个恶意样本，我们证明了我们的方法对恶意应用检测的F值在0.968到0.995之间，假阳性率为0.48%~3.3%。我们发现，多层感知器分类器在这些算法中表现最好。此外，分析处理的运行时间可以压缩到18分钟以下。最后，我们将我们的方法与以前的两类研究进行了比较，在可扩展性和准确性方面报告了更好的性能。

CCS的概念

. 信息系统二文件表示; . 安全性和隐私二恶意软件及其缓解; 移动平台安全; . 计算方法二神经网络工程; 监督学习

关键字

恶意移动应用程序, 机器学习, 深度学习, 自然语言处理, 语义感知

ACM参考格式：

Bo Sun, Tao Ban, Shun-Chieh Chang, Yeali S.Sun, Takeshi Takahashi, and Daisuke Inoue. 2019. 用于识别恶意移动应用程序的可扩展和准确的特征表示方法。In The 34th ACM/SIGAPP Sym-

posium on Applied Computing (SAC '19), April 8- 12, 2019, Limassol, Cyprus.

ACM, New York, NY, USA, Article 4,8pages.org/10.1145/3297280.https://doi

3297396

1 引言

近年来，智能手机已经完全充斥了我们的日常生活；相应地，智能手机已经成为攻击者的主要目标之一。McAfee[3]报告说，仅在2018年第一季度就发现了约200万个新的恶意移动应用程序。如此急剧增加的新恶意移动应用程序，导致安全专家在人工分析方面的沉重负担。因此，将恶意移动应用程序的分析过程自动化，引发了安全研究界的极大兴趣。

为了实现分析自动化，机器和深度学习

1是合适的技术，已经在以前的多项研究中得到了应用。传统的机器学习，如支持向量机（SVM）和K近邻（KNN），也是主流方法。传统的基于机器学习的方法[9, 10, 14, 21, 23, 24, 26]从移动应用包中提取特征，如应用编程接口（API）调用和权限请求，或应用商店的元数据，如类别和描述，然后应用特征选择技术来确定有效的特征并减少特征向量的大小。基于这些选定的特征，传统的机器学习算法被用来对移动应用进行二进制检测。随着深度学习的快速发展和完善，安全研究人员已经开始采用这种新技术。基于深度学习的方法[13, 19, 27]也需要从移动应用包或元数据中提取特征；然而，与传统的机器学习不同，深度学习可以以一种信息丰富的方式自动表示特征，而不是通过特征选择。

随着时间的推移，移动应用程序的数量持续急剧增加。因此，在大规模数据中检测恶意的移动应用程序，已经成为这个领域的一个新挑战。为了应对这一新的挑战，有两个问题需要解决。首先，参考文献。[19]指出，他们的系统在测试数据集从近2000个增加到20000个（被定义为大数据集）后，F值从0.97下降到0.86。因此，如何在大规模数据下保持较高的恶意应用程序检测准确率是首要的未解决的问题。此外，当数据规模增加时，需要更多的时间来处理和分析数据。因此，如何减少大数据分析的计算时间是第二个问题。解决这两个问题并非易事，因为需要有一个准确的解决方案，能够以高F值和低误报率捕获恶意的移动应用，也就是说，它需要是一个有足够扩展性的解决方案，以快速处理不断增加的移动应用数量。

为了解决这些问题，在这项研究中，我们提出并开发了一种新的基于语义的方法，以表示大规模数据集中的恶意移动应用程序的特征向量，从而有效地、高效地进行检测。我们的方法利用静态分析，从移动应用的API调用和权限请求中快速提取特征。此外，我们还包括从移动商店收集的元数据作为特征。请注意&#