第一章:通向智能安全的旅途
1.1 人工智能、机器学习与深度学习
机器学习是实现人工智能的主要方式,人类基于机器学习和海量的数据,逐步实现人工智能,深度学习是机器学习的一个分支。
1.2 人工智能的发展
A. 谷歌大脑: 是“Google X实验室”一个主要研究项目,科学家们通过将1.6万台电脑的处理器相连起来,使之成为一个大型中枢网络系统,它能够自主学习。
B. 百度无人车:项目起始于2013年,由百度研究院主导研发,技术核心是“百度汽车大脑”,包括高精度地图、定位、感知、智能决策与控制4大板块。
C. AlphaGo: 是一款围棋智能程序,隶属Google公司,主要工作原理是“深度学习”,曾经击败多名顶尖职业棋手。
1.3 国内外网络安全形势
A. 国内部分网站存在Ramnit恶意代码攻击
B. 2.7亿Gmsil、雅虎、Hotmail账号泄露
C. 2016年10月,提供动态DNS服务的DynDNS遭到大规模DDOS攻击,导致多个大型网络瘫痪
D. 希拉里“邮件门事件”
1.4 人工智能在安全领域的应用
人工智能在安全领域的应用还属于起步阶段
A. 恶意代码图像: 这个概念最早是2011年由加利福尼亚大学的Nataraj和Karthikeyan在他们的论文 Malware Images: Visualization and Automatic Classification 中提出来的,思路非常新颖,把一个二进制文件以灰度图的形式展现出来,利用图像中的纹理特征对恶意代码进行聚类。
B.OpCode n-gram:是自然语言处理领域的概念,早期的语音识别技术和统计语言模型与它密不可分。n-gram可应用于恶意代码检测,王磊团队对APK的特征提取主要分为三大特征:
·结构化特征:包括APK申请的权限的个数,资源文件中包含的图像文件个数和参数大于20的函数的个数等
·统计类特征
·长期恶意APK检测的经验总结的特征,包括资源文件中是否包含可执行文件,assets文件夹中是否包含APK文件等
参看: 利用机器学习进行恶意代码分类 (bindog.github.io)
1.5 算法和数据的辩证关系
算法和数据是机器学习解决实际问题不可或缺的两大因素,早期的机器学习十分依赖特征的提取。在实际工作中,不同算法的检测效果可能会差别很大。
1.6 本章小结
略