Malware Detection on Highly Imbalanced Data through Sequence Modeling 总结
创新点:
- 提出了一种基于LSTM的恶意软件检测方法,利用了软件活动中的时间先后关系,但是需要大量的数据进行训练,现实中的数据很少。
- 借用自然语言领域学到的知识。使用bert模型,来进行恶意软件的检测。由于bert模型是预训练模型,所以之后只需要少量的数据进行微调训练,解决了恶意软件数据不平衡的问题,同时最后的分类结果也很好。
恶意软件检测技术
1. 传统的恶意软件检测技术
传统的 Android 恶意软件检测一般使用模式匹配或指纹匹配等方法。
-
依赖于手工选择的特征进行匹配和启发式过滤。
-
利用权限和API的上下文和顺序区分。
-
利用一些粗粒的特征,如申请的权限信息,API调用频率。
-
静态分析方法,从已知的Android恶意软件中自动挖掘出恶意软件的程序逻辑。
-
动态分析方法,监视软件在API层的行为,提取并分析内部组件之间的行为特征以及系统调用特征以检测恶意软件。
2. 基于人工智能算法的Android恶意软件检测方法
利用特征类型进行划分: -
{0,1}型特征
{0, 1}型特征即每一个特征使用一个标志位, 个标志位非 1 即 0。1 代表应用存在该特征, 0 代表不存在。 -
序列型特征
序列型特征主要基于代码中的API 序列关系或字节码序列关系。 -
端到端模式
直接使用原始 apk 的二进制码, 或只是进行简单的字节码截取或映射。
联邦学习
本质:联邦学习本质上是一种分布式机器学习技术,或机器学习框架。
目标:联邦学习的目标是在保证数据隐私安全及合法合规的基础上,实现共同建模,提升AI模型的效果。
联邦学习的分类:
- 横向联邦学习
适用场景:
横向联邦学习的本质是样本的联合,适用于参与者间业态相同但触达客户不同,即特征重叠多,用户重叠少时的场景,比如不同地区的银行间,他们的业务相似(特征相似),但用户不同(样本不同)。 - 纵向联邦学习
适用场景:
纵向联邦学习的本质是特征的联合,适用于用户重叠多,特征重叠少的场景,比如同一地区的商超和银行,他们触达的用户都为该地区的居民(样本相同),但业务不同(特征不同)。 - 联邦迁移学习
适用场景:
当参与者间特征和样本重叠都很少时可以考虑使用联邦迁移学习,如不同地区的银行和商超间的联合。主要适用于以深度神经网络为基模型的场景。