inforsec2019夏令营在东南大学九龙湖校区举办,时间是7.15-7.16,然后是提前一天报道。
主要是提供一个老师与学生交流的平台,知道有哪些行业大佬正在做什么研究工作,主要还是面向本科生将来读研可以选择感兴趣的学校和导师。主要介绍的内容包括CTF和AI安全,对于我这种老阿姨而言就是...看看人家再看看自己,然后......
大概记录了一些听汇报记的简要笔记,有一些跟我的研究方向不相关的就没有记录啦。专有名词都理不顺啦~
20190715
AM
王若愚:为何自动化漏洞挖掘如此困难
亚利桑那州立大学助理教授/angr创始人之一/专攻逆向题
主要讨论的目标是二进制程序(编译后的可执行文件,没有源码,没有调试符号)
为什么要挖掘漏洞?以CVE-2014-1266-Apple "golo fail"如果出现这个问题,无法做验证
什么是fuzzing?生成很多测试示例给测试程序,检测数据覆盖,覆盖尽可能多的程序状态,尽早触发问题。高效率的输入变异/低开销的反馈,由程序覆盖率作为指引。
为什么这么困难?很难在一定的时间内找到程序的边界,考虑到所有可能的数据
如何挖掘漏洞?人工/手动;fuzzing;符号执行(慢);静态分析
fuzzing 的适用条件?目标程序的执行速度接近于本地执行的速度(同指令集或JIT往往是必要的);高质量的种子输入;速度极快的反馈机制
符号执行的优点?模拟执行;符号求解
为什么符号执行慢?大多数情况下不能做本地执行,只能用模拟执行在模拟器中;约束求解;设计
学术研究的价值?对AFL,如性能提升(用符号执行增强;进一步提升符号执行和fuzzing结合的效果;无需符号执行)、增加适用的效果(增加到文件系统)。对符号执行的提升(angr,提升分析速度/质量,利用更多的信息,增加可分析的目标)
讨论了一种提升漏洞挖掘效率的方法:将自动程序分析的结果、抽象信息及人类提供的先验知识有机结合来提高效率。
郭山清:实用密码技术应用初探
软件/协议的漏洞挖掘,密码科学
张源:面向科研的CTF人才培养
鲁辉:方班CTF战队建设与王安人才培养模式探索
PM
主要是一些CTF国内优秀选手们关于CTF的介绍,比如清华蓝莲花战队等。DEFCON比赛/CTF time多刷题,什么时候开始都不算晚.......(but越早开始越好:D)
CTF题是安全技术的浓缩和提炼/CTF是会上瘾的游戏/CTF注重实际操作/不需要花很多时间在平台的搭建上,在docker上部署就可以用/CTF不断进步变化/以最新的技术和研究成果作为研究为背景,作为研究问题
如何选择CTF?参加符合自身技术水平的CTF/按照命题人来选择(选择水平更高的命题人,这样题会更有意义,不用注重是什么级别的比赛)/越打越难
竞赛的反馈非常快,所以做长期的科研会比较不习惯。
扎实的基本功(搜索/代码和文档的快速阅读/逆向工程,没有源码的情况下/脆弱点和问题的挖掘和利用,如fuzzing等/正向开发/沟通能力)
什么叫高质量的赛题?考察点对于大多数选手来说都足够陌生和有趣,通过出题人引导让选手学到出题人想分享出来的知识。考点杂/覆盖面广/具有挑战性,从传统的二进制/WEB安全到较新的物联网安全、区块链安全等
0716
AM
纪守领:AI‘s Security and AI2Security
TextBugger:图像领域可以加入噪声形成对抗样本,文本领域是否也可以加入?文本相对于图像是更高维的,生成对抗性文本。对这句话分出每个词的重要性(word2vec,语义贡献度);从贡献度由高到低改每一个词,看语义会不会影响(有十几个规则,0-O等);把词插回去,再进行分类
情感分析(攻击使postive与negative互相转换);有害内容检测
用对抗性文本去攻击现有的NLP系统。发现对抗性文本对于语义的影响很大,如人看起来是positive,但是机器看起来要是negative的。对抗性文本的可迁移性。
defence策略:spelling check;adversarial training
(除了情感分析是否还可以做别的,NLP是把内容变为embedding输入,通过改变几个embedding 的内容,是否可以直接改变语义,比如把熊猫通过embedding输入的内容改成大象。)
model reuse defence:很多模型都是再别人基本的开源网络上面进行修改,在model层面加上一些噪声,更改上面的一些参数。然后开源放出去,做一些定向攻击。攻击预训练好的模型
找到哪些参数对于这个目标是最有效的,然后更改这些参数,保留其他的参数。要确保别的工作仍然起作用。
深度模型参数过多,使攻击可能增大
DeepSec:
攻击:16种典型攻击;防御:13种典型防御;15种评估方法
APT:与阿里合作,在电商领域,关注黑产市场。
线下算法:使用淘宝的全量数据来检测属于欺诈行为,graph-based
在线算法:实时算法,欺诈用户和真正用户的行为轨迹是有区别的
商品价格(经济学角度分析可以达到利益最大化);哪个地区的欺诈行为更多;性别分布
CATS:不基于阿里的数据,使用外部的数据集。实现跨平台,看哪个平台的欺诈行为会更多。
AI-aided Fuzzing:软件测试
SmartSeed(把gan应用到fuzzing上);V-Fuzz(程序很大,对重点使用更多Fuzz的时间和次数,基于图神经网络看哪个地方有漏洞概率更高);MOPT:learning-based,AFL使用随机均匀分布,但是随机均匀分布肯定不是最优的,选用适用自己的编译策略。基于粒子群的算法,使用到了统计知识又更简单/前期比较高效,后期时间比较长,单位时间内在这个stage找到多少,低于某个阈值就让它直接进入下一个stage。只是提供一个策略,集成到现有的模糊测试工具。统计学上分析了结果的可解释性。&很多fuzzing工具跑到后几天就效果不好,这个模型可以连续运行很多天。
在fuzzing用AI模型,是不是非常影响效率?fuzzing的本质是大量的测试用例,效率是非常重要的。cover更多的branch,模型的本质要求是在有效保证效率的时候使用更多的知识(只是用一段时间统计数据,反馈给模型)。把AI模型对于fuzzing没有用的部分去掉,不能用所有的AI模型,这样效率太低了。
邹德清:从源代码漏洞挖掘谈有价值研究
通过智能的方式把漏洞的原理和特性挖掘出来
无法定位到指令一级,只能定位到函数级。API相关漏洞/指令漏洞,只有这些送到机器学习中去学才能够实现区分。
SySeVR:程序的候选区域是哪里,借鉴计算机视觉领域中的图像识别
与传统的漏洞分类方式不一样。库/API函数相关;算术表达式;数组使用;指针使用。因为和传统的漏洞定义方式不同,所有的漏洞定义/训练数据都需要自己准备
VulDeePacker:只能判断代码段有没有漏洞
===>引入code attention:判断漏洞的类型
===>VulDeeLocator:利用中间代码进一步凝练,定位到最关键的漏洞代码行,进行细粒度漏洞检测。
并发漏洞检测:
与一般程序错误相比(更难触发,程序执行过程中有几率发生;更难重现)
软件源代码安全审查公共服务平台;安全可控的电力信息基础设施风险评估;车联网安全;利用动态污点跟踪挖掘二进制程序漏洞
张殷乾:A New Era of Computer Security Research
首先介绍了安全领域四大顶会的介绍/收稿/new submission model
然后在中美关系紧张的现在,对于研究者有什么样的影响
安全研究的规则:什么样的问题容易被认可&接受,新的安全问题(新的安全攻击方法;新的threat model)/新的平台和环境/新的研究方法,现有问题&方法只是提高效率不同意被接受
threat model:一切系统或者协议的安全设计和实现都是基于特定的假设的。
CISPA张阳:机器学习模型的隐私风险
Membership privacy
Data Reconstruction,Online Learning:算力很强,收集很多数据。但一直在产生新的数据,不断传上去,用新的数据更新模型。attack surface
autoencoder/Single sample reconstruction/Multi-sample label estimation/Multi-sample reconstruction,重构一堆图片,gan,每一个点都要确保gan可以学出来,condition gan,不是以往的随机的结果
Online learning constitutes a valid attack surface
Four attacks ranging from label inference to reconstruction
First of its kind data reconstrution
Online learning setting,but may generalize to other
给一个黑盒的ML模型,如何把数据集全部重建?
德国不需要托福&gre
PM
段海新:DNS Security
importance of DNS
punycode的编码方式:unicode钓鱼攻击
Homographic IDNs,现在有了新的域名,比如加入emoji
How DNS works?基于UDP的查询,递归解析服务器。
DNS设计漏洞:幽灵漏洞。测量了递归服务器,94%会受到影响。Ghost Domains
DNS Root
关于互联网协议和标准的思考
互联网的协议标准通常并非起源于一个设计蓝图,而是最佳实践的总结文档;
协议的设计、描述、实现中有许多问题(定义有不完备的地方、开发者对协议理解的不一致、不同时期的设备,实现的不同版本的协议)
没有机构验证协议实现是否与标准相符
段老师压轴救场,讲了他教授的DNS相关内容课程的一小部分,四舍五入上了一节清华的课~