学习目的:写一篇基于机器学习的Android应用分类的论文,标准为EI即可。
整体思路:
一、阅读论文&学习机器学习
1.首先在同学们的推荐下,看了吴恩达《机器学习》的教学视频,看到10-几后面就没有再看了,中间也有很多知识点不太理解,只是对机器学习有了一个初步的认知。
2.阅读了一些英文论文+中文论文。因为之后需要发表的是英文论文,所以开始都是直接看的英文论文。随后有点学不进去的时候,就给自己找了一些中文论文看。看了20篇左右的时候,心里对研究方向大概有了点数。
3.针对分类算法,在《机器学习》那本西瓜书,看了前面几章介绍,看了分类算法。再针对比较钟意的算法找特定的论文来看。
二、数据获取
1.需要收集比较大量的数据,进行模型的训练。首先如何确定要多少量级的数据呢?通过阅读论文,我发现之前的研究者的中论文良性apk与恶性apk的样本,一般是各1000个左右。所以我也是想各收集1000个左右。
2.恶性apk的获取比较棘手,由于其性质没有公开的数据集。经过调研,发现两个可用网站供大家参考:
① AMD网站 ,约有25000个恶性apk样本,需要由学校的导师帮忙发邮件申请,并附上导师个人主页。
② virusshare网站 ,这里面有海量的恶性apk样本,但是需要登陆后才可下载。账号需要邀请注册,由个人给管理员发邮件,说明你是谁,为什么申请账户ÿ