notes of inforsec2019

最新推荐文章于 2023-11-27 17:58:19 发布

dhyms482645

最新推荐文章于 2023-11-27 17:58:19 发布

阅读量420

点赞数

文章标签：人工智能网络运维

原文链接：http://www.cnblogs.com/lyeeer/p/11197365.html

版权

inforsec2019夏令营在东南大学九龙湖校区举办，时间是7.15-7.16，然后是提前一天报道。

主要是提供一个老师与学生交流的平台，知道有哪些行业大佬正在做什么研究工作，主要还是面向本科生将来读研可以选择感兴趣的学校和导师。主要介绍的内容包括CTF和AI安全，对于我这种老阿姨而言就是...看看人家再看看自己，然后......

大概记录了一些听汇报记的简要笔记，有一些跟我的研究方向不相关的就没有记录啦。专有名词都理不顺啦~

20190715

AM

王若愚：为何自动化漏洞挖掘如此困难

亚利桑那州立大学助理教授/angr创始人之一/专攻逆向题

主要讨论的目标是二进制程序（编译后的可执行文件，没有源码，没有调试符号）

为什么要挖掘漏洞？以CVE-2014-1266-Apple "golo fail"如果出现这个问题，无法做验证

什么是fuzzing？生成很多测试示例给测试程序，检测数据覆盖，覆盖尽可能多的程序状态，尽早触发问题。高效率的输入变异/低开销的反馈，由程序覆盖率作为指引。

为什么这么困难？很难在一定的时间内找到程序的边界，考虑到所有可能的数据

如何挖掘漏洞？人工/手动；fuzzing；符号执行（慢）；静态分析

fuzzing 的适用条件？目标程序的执行速度接近于本地执行的速度（同指令集或JIT往往是必要的）；高质量的种子输入；速度极快的反馈机制

符号执行的优点？模拟执行；符号求解

为什么符号执行慢？大多数情况下不能做本地执行，只能用模拟执行在模拟器中；约束求解；设计

学术研究的价值？对AFL，如性能提升（用符号执行增强；进一步提升符号执行和fuzzing结合的效果；无需符号执行）、增加适用的效果（增加到文件系统）。对符号执行的提升（angr，提升分析速度/质量，利用更多的信息，增加可分析的目标）

讨论了一种提升漏洞挖掘效率的方法：将自动程序分析的结果、抽象信息及人类提供的先验知识有机结合来提高效率。

郭山清：实用密码技术应用初探

软件/协议的漏洞挖掘，密码科学

张源：面向科研的CTF人才培养

鲁辉：方班CTF战队建设与王安人才培养模式探索

PM

主要是一些CTF国内优秀选手们关于CTF的介绍，比如清华蓝莲花战队等。DEFCON比赛/CTF time多刷题，什么时候开始都不算晚.......（but越早开始越好:D）

CTF题是安全技术的浓缩和提炼/CTF是会上瘾的游戏/CTF注重实际操作/不需要花很多时间在平台的搭建上，在docker上部署就可以用/CTF不断进步变化/以最新的技术和研究成果作为研究为背景，作为研究问题

如何选择CTF？参加符合自身技术水平的CTF/按照命题人来选择（选择水平更高的命题人，这样题会更有意义，不用注重是什么级别的比赛）/越打越难

竞赛的反馈非常快，所以做长期的科研会比较不习惯。

扎实的基本功（搜索/代码和文档的快速阅读/逆向工程，没有源码的情况下/脆弱点和问题的挖掘和利用，如fuzzing等/正向开发/沟通能力）

什么叫高质量的赛题？考察点对于大多数选手来说都足够陌生和有趣，通过出题人引导让选手学到出题人想分享出来的知识。考点杂/覆盖面广/具有挑战性，从传统的二进制/WEB安全到较新的物联网安全、区块链安全等

0716

AM

纪守领：AI‘s Security and AI2Security

TextBugger：图像领域可以加入噪声形成对抗样本，文本领域是否也可以加入？文本相对于图像是更高维的，生成对抗性文本。对这句话分出每个词的重要性（word2vec，语义贡献度）；从贡献度由高到低改每一个词，看语义会不会影响（有十几个规则，0-O等）；把词插回去，再进行分类

情感分析（攻击使postive与negative互相转换）；有害内容检测

用对抗性文本去攻击现有的NLP系统。发现对抗性文本对于语义的影响很大，如人看起来是positive，但是机器看起来要是negative的。对抗性文本的可迁移性。

defence策略：spelling check；adversarial training

（除了情感分析是否还可以做别的，NLP是把内容变为embedding输入，通过改变几个embedding 的内容，是否可以直接改变语义，比如把熊猫通过embedding输入的内容改成大象。）

model reuse defence：很多模型都是再别人基本的开源网络上面进行修改，在model层面加上一些噪声，更改上面的一些参数。然后开源放出去，做一些定向攻击。攻击预训练好的模型

找到哪些参数对于这个目标是最有效的，然后更改这些参数，保留其他的参数。要确保别的工作仍然起作用。

深度模型参数过多，使攻击可能增大

DeepSec：

攻击：16种典型攻击；防御：13种典型防御；15种评估方法

APT：与阿里合作，在电商领域，关注黑产市场。

线下算法：使用淘宝的全量数据来检测属于欺诈行为，graph-based

在线算法：实时算法，欺诈用户和真正用户的行为轨迹是有区别的

商品价格（经济学角度分析可以达到利益最大化）；哪个地区的欺诈行为更多；性别分布

CATS：不基于阿里的数据，使用外部的数据集。实现跨平台，看哪个平台的欺诈行为会更多。

AI-aided Fuzzing：软件测试

SmartSeed（把gan应用到fuzzing上）；V-Fuzz（程序很大，对重点使用更多Fuzz的时间和次数，基于图神经网络看哪个地方有漏洞概率更高）；MOPT：learning-based，AFL使用随机均匀分布，但是随机均匀分布肯定不是最优的，选用适用自己的编译策略。基于粒子群的算法，使用到了统计知识又更简单/前期比较高效，后期时间比较长，单位时间内在这个stage找到多少，低于某个阈值就让它直接进入下一个stage。只是提供一个策略，集成到现有的模糊测试工具。统计学上分析了结果的可解释性。&很多fuzzing工具跑到后几天就效果不好，这个模型可以连续运行很多天。

在fuzzing用AI模型，是不是非常影响效率？fuzzing的本质是大量的测试用例，效率是非常重要的。cover更多的branch，模型的本质要求是在有效保证效率的时候使用更多的知识（只是用一段时间统计数据，反馈给模型）。把AI模型对于fuzzing没有用的部分去掉，不能用所有的AI模型，这样效率太低了。

邹德清：从源代码漏洞挖掘谈有价值研究

通过智能的方式把漏洞的原理和特性挖掘出来

无法定位到指令一级，只能定位到函数级。API相关漏洞/指令漏洞，只有这些送到机器学习中去学才能够实现区分。

SySeVR：程序的候选区域是哪里，借鉴计算机视觉领域中的图像识别

与传统的漏洞分类方式不一样。库/API函数相关；算术表达式；数组使用；指针使用。因为和传统的漏洞定义方式不同，所有的漏洞定义/训练数据都需要自己准备

VulDeePacker：只能判断代码段有没有漏洞

===>引入code attention：判断漏洞的类型

===>VulDeeLocator：利用中间代码进一步凝练，定位到最关键的漏洞代码行，进行细粒度漏洞检测。

并发漏洞检测：

与一般程序错误相比（更难触发，程序执行过程中有几率发生；更难重现）

软件源代码安全审查公共服务平台；安全可控的电力信息基础设施风险评估；车联网安全；利用动态污点跟踪挖掘二进制程序漏洞

张殷乾：A New Era of Computer Security Research

首先介绍了安全领域四大顶会的介绍/收稿/new submission model

然后在中美关系紧张的现在，对于研究者有什么样的影响

安全研究的规则：什么样的问题容易被认可&接受，新的安全问题（新的安全攻击方法；新的threat model）/新的平台和环境/新的研究方法，现有问题&方法只是提高效率不同意被接受

threat model：一切系统或者协议的安全设计和实现都是基于特定的假设的。

CISPA张阳：机器学习模型的隐私风险

Membership privacy

Data Reconstruction，Online Learning：算力很强，收集很多数据。但一直在产生新的数据，不断传上去，用新的数据更新模型。attack surface

autoencoder/Single sample reconstruction/Multi-sample label estimation/Multi-sample reconstruction，重构一堆图片，gan，每一个点都要确保gan可以学出来，condition gan，不是以往的随机的结果

Online learning constitutes a valid attack surface

Four attacks ranging from label inference to reconstruction

First of its kind data reconstrution

Online learning setting,but may generalize to other

给一个黑盒的ML模型，如何把数据集全部重建？

德国不需要托福&gre