介绍
这是一篇来自2018IMC的论文《Beyond Google Play: A Large-Scale Comparative Study of Chinese Android App Markets》
前置知识
- META-INF和应用程序的包名可以判断应用程序从哪个市场安装的
- 虚假应用(fake apps):试图模拟一个合法的应用程序名称,它们被设计成类似于合法应用程序,但却执行恶意活动,可以通过包名判别
- 克隆应用(cloned apps):克隆的应用程序通常与原始应用程序共享大部分元数据,但它们显然是由不同的开发者签署的。有两种类型:
1.基于签名的克隆和基于代码的克隆,主要是指通过修改开发者签名并重新打包完成的,可以通过“包名一致,但开发者签名不同”的方式判别。
2.基于代码的克隆,主要是指代码相似,可以通过WuKong工具检测 - 恶意软件家族:恶意软件家族是一个程序或一组具有足够“代码重叠”的关联程序,可以被视为同一组的一部分。将它们分组为一个家族可以扩大单个恶意软件的范围,因为它会随着时间的推移而改变,从而创建具有不同家族特征的新恶意软件。
- 中国应用商城分为三类:特定供应商的应用程序市场、网络公司、专业市场
主要内容
测量中国16个主流的应用商城和Google Play的总体概况、发布情况和恶意行为情况,并将中国应用商城与Google Play商城对比
测量方法
爬虫爬取应用程序
数据集来源
1.使用爬虫爬取商城应用。收集Google商城时,使用PrivacyGrade提供的包名为种子,使用广度优先的方式搜索额外相关的应用程序以及由相同开发者发布的其他应用程序。
2.部分应用来自AndroZoo
测量角度
1.测量Google Play和中国应用市场的总体概况:
1)应用分类
各个商城应用的类别数量占比和类别流行情况
2)用户下载
各个商城的下载数目比较和下载分布比较
3)最低API等级
角度1: 最低API等级的数量分布。三角形为google play,方框为16家中国应用商店的值
角度2: 数据应用程序发布/更新时间分布
4)第三方库
由于现有的第三方库过时或缺失,作者在原有的基础上参考其他的第三方库源:AppBrain、PrivacyGrade、Common Library。
角度1: 测量各个应用商店第三方库和广告库的使用情况
角度2: google play和中国应用市场使用数目Top10的第三方库
5)应用评级
对应用程序的评分来反应对应用商城的评级
2.测量应用发布动态情况
1)应用程序开发人员
2)单商店和多商店的应用情况
3)应用商城更新应用的总体分布
3.应用商城恶意行为的情况
1)虚假应用
2)克隆应用
3)越权应用
三角形表示google play,方框图表示16家中国应用商城的值
4)恶意软件流行率
使用的工具VirusTotal
角度1: 总体结果
角度2: Top 10的恶意软件
角度3: 恶意软件中有多少软件是经过打包的
角度4: 恶意软件家族分布情况
角度5: 对恶意软件的删除情况