论文阅读:Cyber-security research

先验知识:

ISP:因特网服务提供商 ( ISP )是为个人或企业提供访问

NetFlow是一种网络监测功能,可以收集进入及离开网络界面的IP封包的数量及资讯,最早由思科公司研发,应用在路由器交换器等产品上。经由分析Netflow收集到的资讯,网络管理人员可以知道封包的来源及目的地,网络服务的种类,以及造成网络拥塞的原因

摘要

为什么做:ISP通过检测与其用户相关的恶意网络活动可以获利

问题:不清楚 ISP 拥有什么样的流量数据可用于网络安全研究,以及可以在哪些法律条件下使用。

本文:(欧洲)可用数据源—— DNS 和 NetFlow

技术:匿名化和指纹识别技术的最新技术。

提出:基于立法、数据可用性和隐私考虑,提出了一种实际适用的匿名化政策。

1.介绍:

现实生活中流量跟踪的可用性受法律限制

立法没有规定必须对特定数据源使用哪些特定的匿名化技术。

合法数据源→针对 NetFlow 和 DNS 日志的策略

第 II 部分介绍了相关立法和匿名化要求,

第 III 部分概述了 ISP 通常在技术上可用的数据源。将相关范围限制为两个数据源,

第四节介绍了有关匿名技术和基于匿名 DNS 和 NetFlow 日志的订户指纹识别的相关工作。

第 V 节和第 VI 节基于从前面所有部分获得的知识,提出和讨论 NetFlow 和 DNS 日志中各个字段的具体匿名化策略,从而提供了本文的主要贡献。

2.立法:

数据源的法律规定:

“处理”是指对客户 IP 流量、位置数据等进行任何形式的存储、操纵、转发等。

“以传输为目的的处理”是指传输所需的处理IP 数据包(路由、交换)、执行 DNS 查找(缓存、递归)、验证订阅者、将数据包路由到正确的蜂窝塔和类似操作

由于几乎不可能让所有订户都注册与网络安全研究相关的增值服务,因此使用匿名数据是唯一可行的策略。

匿名化技术的法律规范:

两种匿名化技术:

Randomization:使用噪声添加和排列技术“改变数据的准确性,以消除数据与个人之间的紧密联系”。

Generalization:聚合(k-匿名)、Ldiversity 和 T-closeness 技术“通过修改相应的规模或数量级来概括或稀释数据主体的属性”。

→在大多数情况下,不可能对要使用的参数给出最低限度的建议,因为每个数据集都需要逐案考虑。

只有 ISP 传输目的处理的数据才能用于网络安全研究,并且数据只能用于以匿名形式保留。关于匿名技术的意见详细说明了哪些匿名技术被认为是合规的。

3.数据源

需要匿名化的数据源

(1)用户身份(与IP地址相关的日志数据)

Ip分配log

移动用户需要私有ip地址-运营商级网络地址转换(CGNA)log

EPDG CDR log(Evolved Packet Data Gateway:演进的分组数据网关;Call
Data Record:通话数据记录; )

(2)移动位置信息

小区数据库,用户移动事件log(包含用户身份 (IMSI/IMEI)、目标小区身份 (a 5-6 位数字)和目标无线接入)

(3)互联网活动

NetFlow 日志骨干网的路由器

DNS 日志可以包含客户端源 IP/端口、查询和响应。

4.相关工作

首先是术语说明,其次是分别介绍了NetFlow和DNS匿名的相关论文

术语说明:Aggregation vs. generalization:

Anonymization vs. pseudonymization:

NetFlow

(IPFIX全称为IP Flow Information Export,即IP数据流信息输出,它是由IETF公布的用于网络中的流信息测量的标准协议。)

RFC 6235 为 IPFIX 协议 [4] 的各个字段提供了匿名化和假名化选项,将各种匿名化技术分为不同的类别,但是,只有名为“泛化”(如截断)或“集合替换”(如噪声添加)的类才能被视为匿名化而不是假名化技术,没有具体的建议,只是思想;

对匿名化技术和 25 种工具的综合调查。

讨论了在网络数据包捕获中对不同协议层中的不同字段进行匿名化的相关性。

总结与建议:

“端口号不应该匿名,因为它会对网络捕获的有用性产生很大影响,并且不能直接用于识别”[6]

“目前,在没有完全受信任的各方,不建议共享完整的匿名数据集。目前针对重新识别的保护仍然不足。”

DNS

DNSSEC 和 DNS-over-TLS 等真实性和机密性机制,但详细介绍如何保护静态数据的部分主要关注数据最小化、IP 地址匿名化和 TCP/TLS 相关功能。

仅使用对前 n 个最流行的主机名的请求进行身份指纹识别(top k)

布隆过滤:依靠散列函数以不可逆的方式存储域名。降低了存储数据的效用,数据只能用于搜索已知的与恶意软件相关的域名。(白名单)

5.NETFLOW 匿名化

(详细说明了各个字段的匿名化技术的选择,并通过提供实现这种策略的伪代码来结束)

具体列举了常用的ipfix功能及建议的匿名化策略。

**总字节数和数据包:**TCP/UDP 会话中的总字节数和数据包数可用于用户分析和针对其他匿名技术的攻击 。但 ISP 收集 NetFlow 时,通常会按 1:n 采样。

样还自动提供数据包和字节计数的精度降级,这被认为是该字段的有效匿名方法 。

(数据建议:n>512)

IP地址:截断IP 地址,其他字段可能仍然能够识别主机。

其他匿名机制:在应用主动指纹识别技术(是啥?)时,可以重新识别 NetFlow 流量中的主机。

k-anonymity需要在匿名化之前分析数据分布。因此,这些扩展在实践中无法立即实施

**时间戳:**DNS 或 NetFlow 日志均不包含源自主机的时间戳,仅记录来自 NetFlow/DNS 日志捕获设备的时间戳。

为了保持匿名性,时间戳的精度可以降低到例如一小时或一分钟。

**IP 协议:**分箱技术,即使用 4 个分箱:TCP、UDP、ICMP 和“所有其他协议”。

**ICMP 类型/代码:**为了匿名化,可以从日志中省略代码字段。但是,这样做有一个明显的缺点,因为它显然还会隐藏任何使用操作系统检测技术的恶意软件。

**端口号:**端口号不应该匿名,因为它会对网络捕获的有用性产生很大影响。

**TCP flags:**分析 TCP 标志是检测使用 DDoS SYN 攻击和其他攻击类型的恶意软件的关键。TCP 标志显示的操作系统系列不会显示 ISP 部署的 CGNAT 设备类型。因此,建议不匿名。

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-I4TIRpGN-1651802839679)(C:\Users\Dell\AppData\Roaming\Typora\typora-user-images\image-20220114130702935.png)]

第 2-3 行删除 AM/PM 信息,

第 8 行和第 14 行将 IP 地址截断为 /8 和 /16 前缀,

第 10 行将端口号截断为具有 NAT 的客户的 /2 前缀(假设基于 64 个端口范围的 CGNAT)。

第7、9和11行在前缀列表 中搜索IP地址

  1. DNS匿名

NetFlow 只是一种用于记录被动收集的流属性的格式,但 DNS 是订阅者使用(并可能受到攻击)的服务。这需要一种功能更全面的日志记录方法,而不是专注于几个特定字段。

细节:

时间戳:

DNS标头:DNS 标头由许多标识符、响应代码和标志组成,许多是解析非标头组件所必需的,因此该字段 会适当随机化以降低隐私风险。

TTL:chosen

不常见的操作码、类和类型:这种类型的流量似乎不是人类互联网使用行为的结果,因此不太可能代表任何隐私风险。保留

常见类型:这些组件中的任何一个都可以包含 IP 地址、域名或包含两者之一的文本字符串。so应用于 RR 的任何匿名策略必须同时应用于 QNAME 和 RDA TA 组件,因为一个组件通常可以通过发出新的 DNS 请求从另一个组件派生,从而破坏匿名化。

域名:唯一已知的匿名化策略是域名:

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-teF0IhD5-1651802839682)(C:\Users\Dell\AppData\Roaming\Typora\typora-user-images\image-20220114130756433.png)]

地址、域名或包含两者之一的文本字符串。so应用于 RR 的任何匿名策略必须同时应用于 QNAME 和 RDA TA 组件,因为一个组件通常可以通过发出新的 DNS 请求从另一个组件派生,从而破坏匿名化。

域名:唯一已知的匿名化策略是域名:

[外链图片转存中…(img-teF0IhD5-1651802839682)]

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值