系统化的知识:量化网络风险

系统化的知识:量化网络风险

摘要:

本文介绍了一种受结构方程模型启发的因果模型,该模型用自反性指标测量潜在因素来解释网络风险结果。首先,我们利用该模型对实证网络危害研究进行分类。我们发现,就典型损失或极端损失而言,网络危害并不例外。越来越频繁的数据泄露引发了争议,股市对网络事件的反应也随着时间的推移变得不那么消极。只关注伤害就会滋生宿命论;因果模型在评估安全干预的有效性方面最有用。我们展示了简单的统计关系如何导致虚假的结果,其中更多的安全支出或应用更新与更大的妥协率相关。当考虑威胁和暴露时,安全指标是解释妥协率差异的重要因素,特别是当研究使用安全水平的多个指标时。

关键字:网络风险,安全度量,网络危害,控制有效性,安全科学,因果模型,结构方程建模

1.绪论

关于网络攻击风险日益增加的毫无根据的说法,充斥着关于安全谈判和文件的介绍。或者——尽管研究未能一致地证明干预措施如何降低风险,但预计各组织将在安全方面投入更多。这种事态导致人们认为,网络风险与其说是科学,不如说是艺术。

考虑到这一点,我们的论文旨在系统化量化网络风险。风险估计数(结论)可以用来证明有理由为减轻风险提供额外资源,或用于指导事件后的策略反应。“网络”一词将在安全领域引起广泛关注。然而,正是决策者和商业领袖的选择概念,他们做出了许多安全研究应该影响的决定。
这些决定的前提是一些基本的问题,

如: RQ1 网络事件会造成多大的伤害?
RO2 哪些安全干预措施能有效减少危害?
RQ3 这些答案会随着时间而改变吗?

当安全供应商忙于用不可靠的方法提供自利**(自说自话,各自为营,企业为自己打造安全屋)的答案时[7,82],本文在现实世界安全结果的实证研究中找到了答案。我们系统化的文献使用因果模型连接潜在变量的安全,暴露,和威胁的安全结果。提出的模型捕捉了实证网络风险研究,从机器学习模型预测web服务器受损到财务研究量化网络事件导致的股东损失。(有点拗口,就是用机器学习模型作为工具)**

我们专注于对组织中的网络风险进行分类和量化研究。网络风险这一术语有两个组成部分,风险描述**(量化)**可能的负面后果(损害)由发生的概率加权。网络将我们的范围限制在由逻辑(而不是物理)力量引起的事件。根据这一定义,数据中心的火灾(物理伤害)(信息伤害)不是网络风险,而由被破坏的控制系统引起的火灾(物理伤害)(逻辑伤害)才是。范围内的事件包括拒绝服务攻击、机器和web资源泄露以及组织事件。相关的危害包括股东价值损失、勒索软件支付和时间浪费。

我们的文献检索首先确定了顶级安全会议和信息安全经济学研讨会的相关工作。我们使用向前和向后的参考搜索来识别其他相关学科的作品,直到达到饱和。这样做获取了相关学科的研究,包括法律、信息系统、金融和物理。我们纳入了***实证测量影响组织的现实妥协或伤害***的研究,这是安全科学中的少数方法[60,第12页]。在没有考虑伤害的情况下,也包括了提供有希望的方法来衡量安全性、暴露或威胁的研究。我们向读者推荐Anderson等人对网络犯罪成本的总体估算,以及Dambra等人对网络风险转移的研究。

第二节介绍了因果模型。第三节对RQ1的危害研究进行了调查。第四节确定了针对RQ2的缓解研究。在整个RQ3中确定时间趋势。第五节讨论了RQ1-3的进展、模型的限制和未来的工作。

2.网络风险的因果模型

风险是不可观察到的,但我们可以间接地将其重新计入损失。图1使用人工数据来说明随机关系;观察到的最高损失有多个类似安全级别的双胞胎,但损失小得多。

回归分析旨在探讨存在***统计噪声***时的关系。附录包含了一个关于回归分析的简短教程,但是有信心的读者可以继续阅读。把测量问题放在一边,拟合一个线性模型,其中安全性是唯一的解释变量(蓝线),表明安全性的增加与***更大的损失***相关。根据经验,这一结果已被发现,更高的IT安全预算与更高的数据泄露频率相关[105]。基于观测数据的研究设计容易出现混杂变量,因此我们需要在回归模型中加入相关变量。

增加威胁级别可以更好地匹配(请参阅附录以了解更多细节),并提供对交叉依赖关系的见解。在图1中,绿色虚线向下倾斜,而红色虚线向上倾斜(不具有统计学意义),这表明只有在高威胁人群实施安全时,安全才会降低危害。事实上,威胁是伤害发生的唯一必要条件。因此,安全应该被定义为缓和威胁和伤害之间的关系 ,这样更多的安全就会转化为更少的预期伤害。

安全有效性取决于威胁级别的直觉被纳入了风险管理。如果安全在风险管理中得到缓解,那么第三个变量,暴露,就类似于接受风险的数量。更多的暴露意味着更多的向量可以用来获得访问(表面暴露),更大的资产价值可以被妥协(资产敞口),两者都放大了威胁对预期损害的影响。图2表示受安全性和暴露影响的威胁级别和预期危害之间的关系。符号E(+)表示正相关关系,暴露越多,威胁和伤害之间的联系就越强,而S(-)表示负相关关系。许多研究设计未能考虑到所有这三个变量。

在实践中,衡量这些抽象的变量具有挑战性。报告的损失忽略了危害[2]的全部范围,而损害往往只是由于运气而得以避免。安全在缓和威胁和伤害之间的这种随机关系方面的效果甚至更难衡量。没有一个单一的指标能够涵盖组织的技术、流程和人员的预防性和反应性措施的总和。将安全性建模为一个潜在变量,通过将有噪声的、可观察的指标与高级概念联系起来,克服了这个问题。

图2以图形形式显示了这一点,因为安全性的潜在变量具有反射性指标I1,…,Ik,可以用mi来度量。箭头从安全流到指标Ii,因为这些指标并不造成安全,而是安全级别影响给定测量mi的可能性。潜变量必须从这些反射性指标推断。

虽然图2描述了理想的研究设计,但像S()这样的关系仍然可以代表由显性变量组成的统计模型,其中像安全或威胁这样的变量被认为是直接可测量的。这使我们能够系统化关于网络风险量化的各种文献,并显示哪些因素决定风险结果正在考虑之中。

很少有研究直接将***安全干预与危害结果***联系起来。引入一种***调解因素***,即妥协是有用的,它可能会也可能不会导致损害。调查***安全控制有效性的研究***倾向于关注妥协的指标,而不量化由此造成的伤害,而量化伤害的研究倾向于只从受到妥协的实体中取样。这样做无法量化预防性安全如何影响事件可能性,因为样本中的所有公司都受到了影响。更积极的是,这类研究收集了许多危害观察,并可以探索危害如何根据妥协的类型而变化。(例如勒索软件仓库菌株[92]),我们用T|C表示。图3显示了使用SEM符号的扩展模型。

为了具体说明这一点,图3展示了2017年的一项研究[115],使用红色箭头和指标Ix。作者认为,尽管安全指标(例如隐藏版本号或SSL配置)与跨主机提供商聚合时滥用较少相关,但这些变量并不直接导致安全改进。相反,这些指标被假定为不可观察到的安全级别的反射性指标。作者[115]为预防性安全构建了四个潜在变量Spin,以解释在控制表面暴露Es时网站危害C。表VI描述了潜在变量对应的技术指标。

本文的其余部分根据图3中描述的关系对网络风险的文献进行了系统化研究。我们关注于主要贡献中的统计检验,而忽略了初步结果或表。这将在表三中总结。我们的分类需要大量的解释,因为假设往往没有说明。例如,许多数据泄露研究没有控制受害者的规模或行业,我们认为这是一种隐含的假设,即在分析的(便利)样本中,威胁和暴露是不变的。我们自始至终都在解释这些决定。

3.网络危害研究

这部分谈到了网络伤害的频率和影响(RQ1)。使用图3对危害研究进行分类可以发现,这些研究很少考虑安全性的调节效应(Spand Srin图3)。考虑到这一点,第二个目标是确定哪些数据源可以在未来的工作中用于缓解研究。

表一是量化网络危害的经验方法的概述。III-a部分考虑了整理公开报告的数据来源,而III-b部分的研究依赖于研究人员收集私人报告。section III-c中的研究从法庭程序或股票市场等公开可见的系统中提取数据。III- d节考虑了对系统范围事件所造成危害的研究。

A.公开报道

组织向公众报告网络事件既出于战略原因,也符合报告要求[72]。数据中间商将这些报告汇总起来,以创建付费访问数据库,除了一些例外情况,如Privacy Rights Clearinghouse提供免费访问。大型机构的人数过多是因为它们的报告更容易获得。

数据泄露研究数据泄露研究只对遭受过泄露的公司进行抽样,这意味着损害是以发生泄露为条件的。这些研究估计了被打破记录的数量是如何分布的。我们不把估计整个美国的入侵频率计算为调查妥协的可能性,因为这些估计在不知道可能受害者人数的情况下,提供的信息很少[67]。有两项研究[43,125]通过使用上市公司的数量来估计违约概率来解决这个问题,这是图3中C的一个指标。

使用相同的公开报告意味着每项研究只能添加上一次研究之后收集的数据。每个研究者都采用更复杂的方法来证明发表的合理性。缺口大小符合:2010年[83]只有1个参数,2016年[36,125]只有2和3,2018年[129]只有6+,以及2020年的研究[43]中无限灵活的回归树。一方面,模型的复杂性识别了简单分析所不能识别的关系,如Xu等人[129]表明,自上次突破以来,下一次突破的预期规模随着时间的增加而增加。另一方面,统计检验的增多导致了相互矛盾的结果(见表二)。

对于违约频率/规模是否长期稳定,没有达成共识(RQ3)。结果显示,它们分别为递减/稳定[40]、稳定/稳定[36]、递增/稳定[83,129]和稳定/增[125]。许多矛盾可以用数据分割的方式来解释。只有在恶意入侵[125,126,129]中,才发现入侵规模在增加,但疏忽入侵从未增加。仅在早期几年[30,83]或恶意入侵样本[23,129]中发现频率在增加。

在RQ1中,突破尺寸分布中的形状参数意味着,一些研究认为突破记录的预期数量是无限的[43,83,125],而另一些研究则认为是有限的[36,129]。数据泄露的预期成本可能是无限的,这提出了两个问题。首先,实际上被打破记录的数量是有限的[125]。其次,目前还不清楚这与财务成本有什么关系,因为强制性报告法并不要求机构公布财务成本。雅各布斯变换经常用于将记录的数量映射到财务成本[23,36,40,43]。这种转换来自于一篇博客文章,作者在文中警告说,模型中的变异量是对采用的一个严重挑战[66]。

数据泄露研究的预测能力值得怀疑。2016年,Edwards等人估计,未来3年出现2亿或更多违规记录的概率约为0.1。Wheatley等人[125]得出的最大缺口规模为2亿,在2016年之后的5年里增长了50%。Y ahoo !报告称,在同一年,两家出版物损失了30亿客户记录(尽管早几年就损失了)。即使是为尾部事件设计的方法,如极值理论[125],设置了在同一年内超过一个数量级的界限(在过去3年,多次违规超过5亿),我们对数据泄露究竟了解多少?得出最大界限的同一位作者[125]警告称,风险模型无法预测的复杂系统中会出现“龙王”[107]。

和数据泄露研究一样,操作损失研究只考虑损害H,但从财务损失的角度来看。两项研究[14,41]控制了类似行业、收入和员工数量的暴露指标。令人惊讶的是,网络业务的损失比非网络业务的损失要小。平均损失也较小,这表明在经营损失类别中,特殊的网络风险并非例外。2019年的一项研究[41]支持了这一发现,报告称非网络损失具有更大的平均值、标准差、中位数、偏度和峰度。然而,作者报告[86,第283页]的尾部风险度量对于网络损失来说更高。这提供了模型复杂性导致矛盾结果的另一个例子。

这些研究中使用的ORX数据库[102]包含公开报告的经营损失。在数据中,大型机构的比例过高,因为它们更有可能遭受超过阈值(10万美元)的损失,更有可能由“主要媒体来源”报道损失[102]。用于过滤网络损失的关键字过滤器引入了额外的噪声。在[41]研究中,只有25%的损失被归类为数据泄露,那么剩下的呢?在没有获得专有数据的情况下很难说,但最大的网络损失(144亿美元)是2005年2月发生在中国银行的洗钱事件[41,f. n. 9]。在21世纪,如果你仔细观察,任何事情都可能是网络损失。

手动汇编Ro- manosky[98]使用的专有数据集使用自动和手动方法收集公开报告的事件。结果表明,与欺诈、盗窃和坏账等损失相比,网络事件造成的损失要小得多[98]。然而,在频率方面,他观察到,医疗保健和零售行业的发病率极低,约为0.3%或更低。这可能被低估了,因为分子偏向于公开报告亏损的大公司,而分母则是美国人口普查中按行业分类的所有公司。对公开报道的事件样本进行归一化是一项挑战,因为报道的偏见是未知的,样本所来自的总体也是未知的。

B.私人报道

私下报告的数据必须直接从该组织收集,这样就有机会像在调查中那样收集有代表性的样本。相比之下,案例研究利用与一家公司的关系收集了方便的样本,这就引起了对结果推广效果的质疑。

系统故障后的修复时间是一个危害指标H. frank等人[46]估计了修复时间的分布,并建议探索影响这一问题的因素作为未来的工作。Schroeder和Gibson[104]表明,修复时间和故障频率都取决于系统复杂性,这是表面暴露Es的一个指标。这两项研究都使用了内部数据,即所研究的组织的n = 1。考虑到许多故障并不是恶意的,缺乏对安全性的考虑就不足为奇了,但是可以想象,未来的工作将局限于安全性故障。

保险业似乎很适合量化网络风险。Axon等人[9]分析了来自一家保险公司的70项保险索赔,表明响应服务是最常见的成本。这些见解不太可能适用于购买保险的公司,因为被保险人是如何被鼓励使用事故后服务的[45,127]。Axon等人[9]没有提供定量估计,可能是因为保险公司认为索赔数据构成了竞争优势[127]。调查数据受害调查为了解事件成本提供了另一个窗口。

英国政府委托进行的一项调查[119]根据公司规模和行业,对网络事件的频率和影响进行了量化,分别构成了Es C和Ea H的简单估计。Heitzenrater和Simpson [58]将调查[119]与控制有效性数据结合起来,以量化反病毒或防火墙等商业产品的安全投资回报。

消费者对网络犯罪的调查太多,难以进行全面的调查。Riek等人[96]确定了美国和欧盟最重要的调查[42,56,61,97],我们用这些调查来描述要收集的见解。自我报告的损失被用作H|C的指标[56,61,97],而欧洲晴雨表[42]关注的是受害率。安全信息被收集,如安全开销[96],身份盗窃检测方法[56],或反病毒安装[42],但没有链接到危害结果。对预期危害或妥协频率C的估计必须参照抽取样本的人群。用样本[44]中一小部分受害者的代表性抽样结果来解决这个问题。Riek等人[96]通过过度采样受害者来解决这两个问题,并采用反向加权来解释。

在RQ1方面,Riek等人[96]表明,大多数受害者报告没有损失,许多人损失很少,少数人损失很大[96,第13页]。有趣的是,Hernandez等人[61]发现,与可比的美国样本相比,英国的受害者率几乎相同。调查工作强调处理事件的时间成本[96]以及维护安全控制[58]。

C.在外部观察

其余的研究观察的是公共可访问的系统,而没有与组织互动,这导致了对可观察的东西的测量偏差。

法律制度是相当透明的。研究揭示了决定美国违约诉讼可能性的因素[99],英国监管罚款成本[25],并描述了联邦贸易委员会诉讼中安全要求的演变。实际的损害是由第三方遭受的,但这些研究根据法庭指定的费用调查被告的损害。

Romanosky等人[99]发现,从2005年到2010年(RQ3),诉讼数据泄露的绝对数量没有明显的趋势。它们确定了影响报告的数据泄露被诉讼的可能性的许多因素,例如被泄露的记录数量。在英国,只有一小部分的公共违规行为会被罚款[25],平均罚款是11万英镑,而现在由于GDPR, 50万英镑的上限要高得多。这种估算仅限于法院和监管机构分配的成本。此外,法律案件需要数年才能解决,因此在将缓解措施与法律结果联系起来方面出现了后勤上的困难。

可以研究网络犯罪生态系统,提取危害指标,如典型的勒索软件支付。有三项研究[79,92,109] 使用该方法来估计与CryptoLocker勒索软件活动相关的妥协率随时间变化(T)。两项研究发现,特定的勒索软件活动显示出显著的时间方差(RQ3)。Paquet等人[92]还包括另外34个勒索软件家族,这使得他们能够将损害与支付金额和活动所表明的妥协类型联系起来。这些估计数字很难与遭受损失的受害者的特点或所采取的减轻损失措施联系起来。

虽然不是针对特定受害者的伤害,但直接衡量威胁行动者的研究可以用来估计网络犯罪的总成本。数据泄露对消费者的伤害可以在被盗数据被出售的那一点上观察到,例如通过监控公共渠道[47,117]或通过渗透私人论坛[4]。这些市场是嘈杂的,这可能导致夸大的成本估算[59]。与垃圾邮件[75]、无执照药房[73,85]或大规模勒索软件[63]相关的扩散危害可以从源头上更可靠地进行量化,即犯罪活动。感兴趣的读者可以参考Anderson等人的权威调查。

保险价格一部分保险公司向监管机构提交他们的定价方案[100]。Woods等人[128]提取这些价格,并显示网络保险保费从2008年至2018年的下降趋势(RQ3)。他们还引入了一种方法,使用这些价格来量化预期损失(RQ1)。该方法类似于模型窃取[118],根据报价保费如何随着保险金额的变化而变化来推断损失分布。

股票市场反应研究通过异常回报来量化对股东的伤害。所有研究都控制了Eavia受害行业或大小。在RQ1中,对于数据泄露对股市价值的经济影响的感知被描述为无事自成[95],但这有一个时间维度(RQ3)。Gordon等人[53]和Gay[51]都提供了证据,表明市场反应随着时间的推移变得不那么消极。图4显示了通过meta研究的降低效果。

后来的研究表明,企业领导人学会了如何在违规事件发生后减轻股市的负面反应。董事会层面的激励意味着更昂贵的攻击不太可能被披露,当它们被披露时,负面反应被积极消息的战略性发布所抵消。有两项研究提供了内幕交易的证据[29,80],这破坏了该方法,因为违规后的异常交易并不集中在公开披露后的事件窗口。

在事故发生后,股市的反应可能导致企业领导人将更多资源转移到安全领域。减少的负面冲击与泄密有关,泄密承诺采取面向行动的措施来提高安全性[123]和更快地发现泄密[68]。或许更重要的是,受害者更有可能在事件发生后加强董事会对网络风险的监督[68],这可能导致更多资源被分配到安全领域。不管是否发生了漏洞,市场都会对安全投资的消息给予奖励。显示网络安全意识[11]或认证国际标准[33,93]会带来积极的回报。

D.相关风险

只关注个人损失,忽略了可能是企业间网络损失相关性最极端的方面。影响流行软件和云提供商的事件可能会导致许多公司的损失。1988年,莫里斯蠕虫感染了多达10%的连接到互联网的设备。最近,NotPetya攻击利用了Win- dows的一个漏洞,给数百家公司造成了估计100亿美元的损失[28,54]。

一份行业报告[31]提取了超过800起多方网络事件,这些事件导致5,437个不同的损失,这些损失来自与[98]相同的专有来源。这种方法侧重于以多事件一方发生为前提的损害,以及这种损害如何因行业而异。多方事故的损失中值和95%(100万美元和4.17亿美元),比单方事故的损失(7.7万美元和1600万美元)高出一个数量级,尽管这些数字没有按受影响公司的数量进行正常计算。奇怪的是,他们的数据显示在样本中有三种损失的最大值。

数据泄露和股市反应受到了最多的研究关注。随着时间的推移,市场反应变得不那么消极51,53,因为公司学会了如何操纵公告[5,29,51,80]。表二显示了许多关于数据泄露的矛盾结果,这取决于数据如何被分割和分析方法。对于数据泄露研究,更令人担忧的是,Eling等人表示,记录数量的分布并没有转移到财务成本的分布上。

少数研究[14,41,98]对财务成本进行了量化,发现典型的网络风险比非网络损失更小、更少严重。对公司[13,58]和个人[96]的调查揭示了不那么令人担忧的危害估计。一项调查显示,英国小企业的最大亏损为31万英镑(合41万美元),而业务亏损数据库的平均值为4300万美元。这表明司法管辖权的差异,这部分最令人担忧的方面是,网络危害估计在样本或统计测试之间不一致。

4.网络风险缓解研究

本节关注的是关于安全控制如何影响实际系统中的结果的实证研究。归纳安全证明和攻击文件只是证明攻击是可能的是超出范围。

我们强调了量化潜在变量的有前途的方法,即测量模型。威胁、安全和暴露的度量模型分别在第IV - b节、第IV - a节和第IV - c节中涉及。最后,第四节- d确定了圣杯研究在调查这些变量之间的结构联系。我们始终使用因果模型对研究进行分类,在第IV-E节和表III中进行了总结。

A.安全度量

测量模型将一组指标减少到一个更低维度的输出,可用于探索潜在变量之间的结构关系。本小节包括基于单一指标、自我报告指标和研究者干预的安全测量模型。

单一指标认证的设计是为了降低或组织的安全性,以通过或不通过测试。网络安全认证与积极的股市反应相关[33,93]。然而,没有研究表明认证与更好的风险结果有关。选择效应无处不在,因为市场激励扭曲了看似可靠的证券指标。当认证是强制性的时,公司会寻找要求最宽松的审计师,这造成了一场自下而上的竞争[6,74]。可选认证也没有好到哪去,经过TRUSTe认证的网站不值得信任的可能性是未经认证的[35]网站的两倍多。最近,R ahman等人[94]表明,86%的网站至少违反了他们所认证的PCI-DSS标准中的一项要求。

看看其他地方,人们可能会认为安全预算可以作为一个粗略的安全指标。我们已经发现了更高的IT安全预算是如何与更高频率的数据泄露相关联的[105]。安全预算很可能跟踪风险暴露的一个隐藏变量,例如组织规模,因为入侵频率和规模都与组织规模有关[126,第11页]。Biancotti[13]发现,即使在逻辑回归中控制企业特征,2016年的国防支出与2017年发生事件的概率正相关。对这一结果的可能解释包括:不控制威胁,使用薄弱的暴露指标,组织低效地使用资源,或会计技巧,如在安全预算下重新分配现有成本。自我报告指标发现一个具有广泛预测能力的安全指标是不可能的,这促使收集多个指标。Egelman等人开发了安全行为意图量表(SeBIS),其中用户对16个问题的回答可以映射到具有理想心理测量特性的安全行为的四个方面。这些分量表可以预测最终用户的行为[39,103],但与伤害结果无关。Sawaya等人[103]表明该量表不能适用于不同文化。

虽然信息系统的研究使用问卷回答来解释安全结果,但我们没有意识到组织安全的类似规模。在1990年的一项开创性研究中,Straub[112]对1211个组织进行了调查,以衡量与组织安全承诺相关的潜在因素。该模型表明,组织对安全的承诺与更好的自我报告伤害结果相关,比如事故发生的频率和成本。增加诸如预防措施之类的竞争性解释并没有改善这个模型,尽管正在使用的安全软件包数量的指标很弱。由于这项研究使得直接测量避免了自我报告的数据成为可能[37,81,89,101],因此组织将网络连接到互联网上。

先前的研究只是观察安全水平,而通知研究允许研究者随机分配哪些受试者接受干预。Stock等[110]表明,当通知报告到达网站所有者时,相关漏洞有40%的可能性得到补救。作者没有将不化与危害或妥协的结果联系起来,这在通知脆弱的名称-服务器[26]、不对齐的防火墙策略[77]和HTTPS错误配置[130]的研究中也是如此。

通知已经被攻击的对象使研究人员可以量化一种被动安全形式的影响。Sr. V asek等人[121]表明,通知主机提供商清除恶意软件url的时间从153天减少到101天。类似地,Li等人表明,与网站管理员的直接交流可以增加超过50%的清除可能性,并至少减少62%的感染时间[78]。此外,作者还控制了网站语言或受欢迎程度等暴露指标,结果显示,受欢迎程度较低的网站感染时间较长。

安全预算或认证等单一指标理论上应该概括组织安全,从而解释安全结果。实际上,它们很容易受到选择效应和操纵的影响。自我报告指标成功地解释了安全结果[39,112],但收集成本高昂。收集技术指标的研究[37,81,89,101]可以更容易地进行量化。这些研究在第四节-D中描述,因为它们调查了完整的因果模型。通知研究允许研究者控制安全水平,更有信心地确定因果效应。

B.衡量威胁

主动对手的存在是安全研究[60]的一个独特方面。我们确定了控制不同威胁级别的方法:时间、目标和研究人员干预。

对恶意活动的经验观察可以随着时间的推移进行汇总,以跟踪威胁级别的变化[70,图2 3]。或者,专家的情绪可以随着时间[52]进行跟踪。这提供了纵向的见解,但综合指数并不能说明组织之间的异质性。研究野外的攻击者可以识别威胁行动者的目标变化。
Tajalizadehkhoob等人[113]分析了由托管服务提供商收集的约150k Zeus恶意软件配置文件。数据显示,在6500家金融机构中,只有175家被列为目标,其中规模较大的银行所占比例过高。类似的研究确定了影响DDoS扩增攻击[90]和网络钓鱼邮件[106]受害率的因素。Simoiu等人[106]发现,用户采用双因素认证或恢复机制与网络钓鱼目标正相关,这提供了虚假关系的另一个例子。犯罪分子不会寻找更安全的受害者,而受害者很可能成为犯罪分子的目标,也更有可能采用安全措施。

一种更细粒度的测量包括在互联网流量的反向散射中检测拒绝服务(DoS)攻击。Moore等人[87]描述了这种方法来估计DoS攻击的频率、严重程度和持续时间。该方法确定哪些确切的IP地址是目标。

研究人员干预模拟攻击者作为实验的一部分,提供了在实验室设置中对每个受试者的威胁级别的完全控制。例如,蔡和Y ap[20]利用200种已知的恶意软件毒株来研究安卓反病毒(av)应用程序的有效性。在因果图中,这个实验设计调查了折中C是如何决定安装的应用程序的,改变Sp,

在这个研究设计中,生态效度是值得怀疑的,因为作者只使用了足够老的恶意软件样本,这些样本在57个AVs[20]中至少被40个检测到。这意味着研究过度取样可检测的恶意软件,而理性的攻击者故意使用不可检测的恶意软件。这可以通过通过蜜罐收集恶意软件样本来解决[16,48,49]。问题仍然是,未能检测到恶意软件样本是否意味着伤害,甚至是有意义的妥协。

不太可能找到一种统一的方法来控制威胁。虽然更大的目标往往面临更大的威胁,但对家用计算机的许多DoS攻击构成了相对较大、严重的攻击,攻击速率以数千包为单位[87,第133页]。在决定如何控制各种威胁时,研究设计应考虑网络攻击的具体形式。

C.测量曝光

构建暴露的度量模型似乎直观上很简单,因为暴露的资产也暴露于度量中。选择分析的单位和正确的变量数量是具有挑战性的。

Stone等人[111]试图通过对持续恶意的数量进行排名来羞辱粗心的主机提供商。托管提供商与自治系统(AS)相关联,自治系统作为技术分析单元。Tajalizadehkhoob等人[114]认为这是一种糟糕的方法,因为一些提供商共享自治系统,而另一些则运营多个自治系统。作者提供了另一种方法,即构建从IP地址到45358个托管提供商的昂贵映射[116]。

与托管提供商相关的IP地址数量用于控制暴露[111,131],但这足够了吗?Tajalizade hkhoob等人[116]表明,它可以解释与每个主机提供商相关的20%的钓鱼滥用差异。当向模型中添加三个与主机托管提供商的规模和商业模式相关的额外变量时,这一比例将上升到84%。剩余16%的大部分(77%)方差可以通过包含与主机提供商的定价和ICT指数相关的变量来解释。这就导致作者们提出了这样的问题:如果仅仅是接触就能解释这么多,那么当我们研究虐待时,我们在研究什么?

Soska和Christin[108]进一步证明了暴露的解释力。他们训练了一个分类器来预测一个网站是否会变成恶意的C,这达到了66%/17%的正确率/假阳性率。这些特征都是基于网站的内容和流量统计,这两者都代表了暴露指数。他们的研究设计的一个强大的方面是,在观察到妥协后,特性可以被收集,这要归功于一段时间以来保存的超过3910亿个网页档案[108]。当遗漏相关变量或使用错误的分析单位时,暴露的解释能力很容易被低估。主机提供商的暴露指标从1个增加到4个,导致解释力增加了4倍[116]。这些变量中有很多是可用的,因为作者关注的是托管提供商,而不是依赖于有缺陷的代理,如测量相关AS中的ip数量[114]。除了组织外,Canali等人的[22]显示了暴露的指标,如网络浏览的数量或时间影响折衷结果。

D.结构关系

前面的小节描述了潜在因素的不同测量模型。本节确定调查这些潜在因素之间的关系的研究设计。我们将读者带回先前的研究描述,这些研究使用潜在的安全模型来探索结构关系[112,115],并转向未知的方法,这些方法可分为:主体间、主体内和多指标研究设计。

受试者间设计比较不同安全水平受试者的结果。Edwards等[37]使用这种方法研究不同安全级别的组织之间的僵尸网络感染。它们与可用网络协议、TLS配置和证书弱点等变量匹配成线性模型。为每个行业单独培训一个模型,可以根据所选标准在复杂性和拟合优度之间达到最佳平衡。在一些行业中,TLS证书错误和错误配置与较少的妥协[37]相关。唯一一致的影响与点对点文件共享是否被阻止有关。

在web服务器层面,Vasek等人[120]使用案例-对照设计来探索影响web服务器泄露可能性的因素。作者发现有证据表明,运行最新的软件Sp实际上可能会使网络服务器面临更大的被黑客攻击的风险。这种更安全,更容易妥协的关系可能是由于抽样了相对较多的低威胁,低安全的网站,只有低妥协率,因为他们不是目标。支持这一点的证据是,将示例限制在已经被攻破的服务器上,这是高威胁的一个标志。在这样做之后,作者观察到更新过的网站(22.6%)比从未更新过的网站(33.5%)有更小的比例再次受到危害。这表明,只有在高风险人群中,更高的安全性才与更低的妥协率相关。

受试者内部设计使用纵向数据跟踪同一受试者的安全水平。Nagle等人[89]用一个安全监控公司收集的发生在480家企业的3300万安全事件拟合了一个固定效应回归模型。开放端口的数量,作为(缺乏)安全管理努力Sp的一个指标,在统计上对折衷c的四个指标中的三个有显著影响。作者认为,尽管从观察到的恶意软件感染的稀疏性来看,有3300万的观察结果,但未能建立对第四个指标的影响。这种不平衡现象在一些公司的样本中很常见,这些样本是在违约发生之前收集的,而随后的妥协和伤害(幸运的是)是很少有例外的。

一组研究人员在一组相关出版物中使用网络扫描来预测网络风险结果。第一项研究[131]发现了管理不善的网络Spand来自相应AS的恶意活动C之间的相关性。管理不善的指标都被归一化为暴露指数。他们还利用一种旨在捕捉潜在因素的方法控制社会和经济因素。作者确认了网络管理不善和网络滥用之间具有统计学意义的相关性。汇总所有个体症状的指标具有最强的相关性[131,第8页],突出了结合多个嘈杂指标的价值。

后来的出版物[81]将网络风险预测网络重新定义为IP块上的分类问题。通过使用来自不同来源的1000个事件集,块被标记为被破坏,然后找到受害者的IP块。标记为未被破坏的数据是通过从剩余IP空间中采样创建的,这些IP空间按所有权(或LACNIC前缀)划分为290万组[81,第1013页]。特性空间包括安全Spand暴露Eslike管理不当症状和IP地址数量的指标。作者认为,尽管使用网络上列入黑名单的ip数量作为特征,但特征与地面真实数据的独立性仍然得到了维护[81,第1011页]。

这可以说是用妥协来帮助预测的另一个指标的指标妥协,但是我们认为这是威胁等级的增加,t .类似的研究设计样本的事件,这些受害者年代网站链接域,和标签这些违反域[101]。未被破坏的域是从Web上最大的公开目录中取样的[101]。这些研究获得了类似的真假阳性率(90%/10%[81]和90%/11%[101])。

两项研究都使用了人工病例对照,从不同的人群中提取有标记和未标记的数据;被标记为被破坏的案例都是从公开报告被破坏的公司中抽取的,大多数是大公司(见第三节)。然而,被标记为未被破坏的案例是从不被大公司控制的IP块或域名中抽取的。这些算法很可能是在检测大型企业网络和随机web服务器之间的差异,而不是根据被入侵的可能性来检测大型企业之间的差异。解决的办法是,把被破坏公司的人口数量控制在一个相似的水平,说起来容易解决起来难。我们使用了一种统计孪生方法来构建托管提供商的同质样本[116],但这必须在相似性相关维度上没有基本事实的情况下进行。

最终用户研究虽然我们在本文中关注的是组织风险,但对个体设备及其用户的研究支持我们的叙述。简单的相关性显示,具有计算机专业知识的最终用户[71]或使用Tor浏览器[34]的最终用户与增加的妥协率有关。这两篇论文的作者都拒绝了因果关系的存在,并提出了混淆变量的可能性。Bilge等人[15]在一个使用随机森林预测设备危害的模型中包含了暴露指标,并发现应用安全补丁是第三个最重要的特性(在两个暴露指标之后)。

采用单一安全指标的受试者间研究设计会导致虚假结果,即安全性越高,妥协越多[37,120]。添加控制变量或使用主题内部设计纠正了这个问题。相对不频繁的妥协破坏了统计能力,即使对安全水平进行3300万次观察,也会导致无效结果[89]。

在两项研究中,构建安全潜在因素比任何单一指标都具有更强的解释力[115,131]。虽然学习表征不是明确的潜在的,但应用随机森林预测组织[81,101]和机器[15]的成功进一步支持了我们的呼吁,即远离基于单一指标的解释。这样的模型需要额外的报告来了解安全干预如何影响妥协的可能性。回归模型之所以在社会科学中流行起来,正是因为这种效应很容易解释,即使是以牺牲预测能力为代价。

E.网络风险研究的系统化

表三总结了我们的系统化。第一列显示了相应研究中探索的关系,我们看到图表的第一块,主要是传统的安全研究,使用了相对较短的样本窗口。这可以与危害研究(第二组)形成对比,后者利用第三方汇总的数据库探索纵向趋势。

第四栏显示了网络风险研究场所的多样性。根据学科的颜色编码表明网络危害主要在金融领域(绿色)和跨学科领域(橙色)进行探索。最重要的安全议题(红色)关注的是对威胁和安全的量化,而没有考虑结构关系,近期也有一些例外。除了1990年Straub的开创性工作[112],在过去的6年里,探索多种结构关系的研究设计占主导地位。

5.讨论

我们现在返回我们的每个研究问题。

A. RQ1:网络事件产生了多少危害?

美国的数据泄露是研究最多的事件,因为汇总的公开报告适合进行统计分析。每一项研究都提出了一种新的统计方法,结果导致对同一数据集的断言相互矛盾。这可以与实验科学相比较,在实验科学中,每项研究都收集额外的数据,应用类似的统计测试,并通过元分析构建知识。因此,尽管进行了10年的分析,但我们对数据泄露知之甚少。我们最多只能同意,被打破的记录的数量是有大量跟踪的,尽管这很少说明财务成本[41]。

不同样本、报告标准和管辖范围的危害估计不一致。文本挖掘[41]提取的全球业务损失样本与人工收集的公开报告样本相比,平均损失相差一个数量级(4300万美元至410万美元)[98]。根据2016年[13]的调查,只有0.1%的意大利公司遭受了超过20万欧元的损失。这一发现是由意大利银行(Bank of Italy)收集的分层随机样本得出的,这让我们不禁要问,为什么如此之少的独立统计机构在收集网络安全数据方面使用了自己的专长。

也许网络风险并没有那么有害[91]。当然,与媒体报道的入侵相比,典型的入侵规模更小,尾部更轻。典型的财务成本低于欺诈、坏账或零售盗窃[98],网络运营损失平均小于非网络损失[14]。网络风险格外有害的说法缺乏实证支持,这让人们对充斥在安全文件和谈判介绍中的寻求关注的主张产生了怀疑。这些研究和我们的因果模型不足以为系统性风险提供证据(替代方案在V-D节中讨论)。

B. RQ2:哪些安全干预措施能有效减少危害?

我们的贡献是建立一个框架来评估这个问题的答案。基于目前的证据,没有可采取行动的答案。简单的统计测试会导致虚假的结果,比如更大的安全预算[13,105]、更强的计算机专业能力[71]或更新的软件[120]与更频繁的妥协有关。这种关联的方向可以通过添加控制变量来逆转[120]。

至于每个潜在因素的解释力,仅仅使用暴露指标就可以预测哪些网站会变成恶意网站[108],并解释滥用的大部分差异[116]。相比之下,安全指标本身几乎没有解释力。Liu等人[81]单独使用特征空间的每个子集重新训练他们的模型,发现安全管理不善的特征表现最差[81]。当从完整模型中删除每个指标时,删除安全指标的子集会导致性能的最大下降。这支持了我们因果模型背后的基本直觉:当威胁和暴露的指标被添加到模型中时,安全性只解释危害结果。

基于这些研究优先考虑安全干预是愚蠢的。解释能力方面的最佳统计模型使用多个指标来衡量安全性[81,112,115]。这样的方法不能孤立单个控制的效果,更不用说建立因果关系。与政策相关的是,网络安全法律中的规定必须与缺乏关于具体规定有效性的证据相平衡。

一个有希望的进展是通报研究[78,120],其中安全干预可以在实验室设置之外随机分配。可以合理地说,检测到的影响是由干预造成的。考虑到它们在经济学上的成功,采用类似的随机对照试验设计似乎很有希望。随机分配安全干预的权力带来了巨大的伦理责任[88],这对研究人员考虑与威胁行动者相关的干预来说是复杂的[75,第9页]。

C. RQ3:这些答案随着时间的推移稳定吗?

危害研究的样本窗口比缓解研究的样本窗口长,在某些情况下接近20年(见表三)。总体而言,数据泄露的频率没有增加[36,126],但如果样本仅限于恶意泄露,则数据泄露的规模和频率都在增加[126,129]。从2008年到2018年,网络保险的价格呈下降趋势[128],尽管这更多地与市场动态有关,而不是风险降低有关。就股东价值而言,违约披露的影响似乎随着时间的推移而逐渐减弱。这一转变(2001年[53]年和2005年[51]年)的时间恰好接近强制数据泄露通知法生效的时间。一种解释可能是,2003年后的样本包含了更多之前不会被发现的无关重要的违规行为,这些行为掩盖了大型违规行为的影响,而大型违规行为对股价的影响最大。

缓解研究中的样本窗口过于简短,无法了解安全干预在一段时间内的有效性(见表III)。例如,网络事件预测的性能在从一个月的预测窗口转移到12个月的预测窗口时保持不变[81,第1019页],但研究人员无法进一步测试。这在一定程度上可以用自我收集数据的纪律规范和数据代理的可用性来解释。资助机构可以考虑如何支持制度化的数据收集和共享,例如剑桥网络犯罪中心[27]。

尽管证据确实有限,但没有多少证据表明网络危害特别不稳定。这与对网络犯罪的类似研究是一致的,在2012年和2019年之间,尽管犯罪分子在方法上有所创新,但全球总损失的数量级相同。

D.的局限性

因果模型很少提及其他有价值的安全研究方法,如定性方法,这些方法捕捉了组织安全的微妙之处。在定量的实证研究中,限制可以被提炼为那些模型和更基本的不可知。

因果模型旨在对组织中的网络风险进行观察性研究。这不适用于像通知研究中那样操纵安全级别的研究设计。当前形式的模型不能研究执法干预,必须将其视为影响威胁水平的外源性冲击。

我们的语言经常援引变量之间的线性关系,这并不反映世界遵循这种模型的天真信念。
广义线性模型可以用来解释第三节中确定的危害的非线性分布。许多作者选择了ML模型而不是回归模型。虽然我们认为预测率比回归表更难以解释,但因果模型的重要属性(例如威胁和暴露的变量,多指标)在ML研究中是存在的。

然而,系统性网络风险需要一种根本不同的建模方法,因为没有足够的ML模型或简化形式的回归观察。关于损失产生过程的知识可以用于创建需要更少数据的结构化模型。例如,Honeypots观察到的攻击中的相关性可以通过风险模型[17]中的相关性进行度量。金融界正在考虑这个话题,他们考虑网络风险如何对金融稳定构成独特的威胁[57,124]。

创造有关网络危害的知识和可能的缓解措施取决于现有的数据。数据集的大小并不能说明一切。样本还必须能代表更广泛的兴趣群体。就原始数据而言,调查研究分析了:500万个网页[108];20万webserver [120];45000个主机提供商[116];15000终端用户设备[34];600名恶意数据泄露受害者[129];以及265名有经济损失的数据泄露受害者[98]。提高透明度是[7]需要克服的一个问题,但改进受到事件绝对数量的限制。像网页泄露这样复杂系统的子组件比像公司范围内的损失这样的突发效应更容易研究。对于系统性风险而言,这一问题尤为紧迫,因为目前还没有实证结果。对“想哭”(WannaCry)和“NotPetya”(NotPetya)事件的详细案例研究是一个明显的起点。

第二个问题与社会行为者意识到参数有关。安全认证的信号价值被市场动态[6]和选择效应[35]侵蚀。事件窗口研究受到以下因素的破坏:策略性地发布正面消息[51],隐瞒代价最高的入侵[5],以及内幕交易[80]。这些例子强调了古德哈特的法律,其中安全指标是在以实际安全为代价的优化。一个相关的问题是研究人员的度量会扭曲其他度量,例如,当用于研究目的的网络扫描被解释为攻击者在探测[55]漏洞时。

最后,数据是政治性的。推断出的因果关系可能不能概括研究对象之外的人群,例如跨文化[103],这可能导致有缺陷的(可能有害的)建议。伤害估计不可避免地忽略了某些受害者和伤害类型[76],例如缺乏资源来量化和传播其伤害的个人。数据泄露给公司造成的损失主要是由会计人员确定的直接损失,而不是身份盗窃受害者遭受的间接损失。

E.未来的工作

我们一直认为,因果模型(图3)是量化网络风险的最佳统计方法。然而,这可能会导致一种天真的结论,即调查更多的因果关系总是更好的,这是我们不赞同的。调查完整的因果模型是一个雄心勃勃的研究设计,经常依赖于先前的工作,为个体变量构建测量模型。表四可以说对供资机构分配注意力更有用。

我们的系统化既可以分类现有的研究,也可以显示哪些研究还有待进行。表四显示,没有数据泄露研究将C或H与安全指标联系起来。这是有原因的。在知道哪些公司会被破坏之前,从足够多的被破坏公司收集数据需要大量的样本,否则观察到的妥协的稀疏性会破坏统计检验[89]。一个解决方案是在妥协被观察到之后获得解释变量。例如,Soska等[108]利用互联网档案馆收集历史网站内容。

更一般地说,今后的工作应以量化不同形式的安全的相对效力为目标。最近的工作确定了安全措施和普遍妥协之间的统计关系,这标志着自2009年的关键审查以来的进展[122],但这些结果中只有少数涉及优先级。后者的一个例子是,托管提供商的安全措施在打击网络钓鱼滥用方面比网络管理员发挥更重要的作用[115,第13页]。然而,作者警告不要对单个指标的影响进行因果解释。

6.结论

本文对网络危害评估和安全干预有效性的实证研究进行了系统化。在结构方程模型的启发下,我们引入了一个模型,利用潜在的安全因素,暴露和威胁来解释安全结果。安全的调节作用最好用许多反射性指标来衡量,而不必确定因果关系。我们对经经性网络伤害估计的调查发现,几乎没有证据表明网络伤害的典型规模或差异是特别特殊的,但这些研究没有考虑风险缓解的作用。

将该模型应用于风险缓解研究表明,威胁级别常常被省略。暴露指标对网络风险结果具有较好的解释力。没有控制这两个因素的统计测试会导致虚假的结果,比如增加安全预算导致更频繁的攻击[105],或者应用软件更新增加了网络服务器被破坏的可能性[120]。涉及所有属性的研究表明,安全是网络伤害结果的一个强大决定因素;网络错误配置的指标是对组织是否会遭受网络事件进行分类的最重要特征[81]。

至于风险科学必须告诉商业领袖什么问题,鉴于它对多种妥协形式的预测能力,企业不应低估不必要的风险。在风险规避方面,应该忽视承诺简单解决方案(单一指标解释)的供应商,应该为安全团队配备资源,专注于避免网络危害的任务多样性。政策制定者的注意力应该从一般的损失转移到我们完全不了解的系统性风险上。

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值