Mobile Content Hosting Infrastructure in China: A View from a Cellular ISP
PAM2018:CDNs
作者信息
- Zhenyu Li
- Donghui Yang
- Zhenhua Lu
知识点
ISP
ISP(Internet Service Provider),互联网服务提供商,即向广大用户综合提供互联网接入业务、信息业务和增值业务的电信运营商。
中国ISP主要分类:
- 搜索引擎ISP:谷歌,百度等
- 即时通信ISP:飞信、易信等
- 移动互联业务ISP:提供移动互联服务
- 门户ISP提供新闻信息、文化信息等信息服务
- 在邮件营销领域,ISP主要指电子邮箱服务商
蜂窝网络
蜂窝网络(英语:Cellular network),又称移动网络(mobile network)是一种移动通信硬件架构,分为模拟蜂窝网络和数字蜂窝网络。由于构成网络覆盖的各通信基地台的信号覆盖呈六边形,从而使整个网络像一个蜂窝而得名。
AS自治域
全球的互联网被分成很多个AS 自治域,每个国家的运营商、机构、甚至公司等都可以申请AS号码,AS号码是有限的,最大数目是65536。各自分配的IP地址被标清楚属于哪个AS号码,在全球互联网上,假如一封email从一个a IP地址发往另外一个b IP地址,这封email必须要知道a IP地址属于的AS号码A到b IP地址属于的AS号码 B如何走,然后就沿着这条路到达目的IP地址。这个过程叫数据包的路由,当然,过程要复杂的多
摘要
互联网用户严重依赖移动终端进行内容访问,其中内容由第三方基础设施(例如,CDN和云)或内容提供商自己的传送网络或两者托管和传送。中国是一个国家中移动互联网人口最多的国家,并且还有独特的地方法规和网络政策(例如重度内容审查)。因此,中国的内容交付生态系统可能与西方生态系统存在巨大差异。然而,中国蜂窝网络中的内容托管基础设施几乎没有可见性。
本文通过分析由国家级蜂窝ISP收集的550亿个DNS日志组成的被动DNS跟踪,迈出了填补这一空白的第一步。我们对主要AS的内容相关特征的深入调查表明,流行域的内容对象被深入复制到被检查的蜂窝ISP中。另一方面,多达20%的追踪流量(主要由追踪者拥有的美国公司产生)流出中国。我们的研究结果为蜂窝ISP,CDN和互联网政策制定者提供了有用的见解。
研究点的提出
智能设备普及促进蜂窝网络内容需求;中国互联网人口多且拥有独特的网络政策(限制某些流行的CDNs部署服务器),对中国基础设施的可见性少;
由于DNS将最终用户映射到特定服务器,因此使用DNS回复可以推断在哪些位置托管了哪些内容。
研究亮点
先前的研究:对西方内容托管设施有很好的研究;中国利用主动DNS探测几个顶级域名研究了CDN在中国的选择策略
本文考虑了移动用户所有域名请求
数据:来自蜂窝ISP的550亿条DNS回复,很高的覆盖率允许更加全面的视角;
我们借用[7]中与内容相关的指标来描述占大多数DNS查询的AS的功能;
进一步提出了一种聚类算法来识别内容提供商,并检查了主要提供商的功能。最后,本文研究了跟踪域的托管基础架构,这些基础架构存在于移动网络中,在移动应用程序中更为突出。我们还从不同方面讨论了我们主要研究结果的含义。
贡献
- 发现托管基础设施集中
- 托管服务提供商识别
- 跟踪器托管基础设施
实验
数据集:被动DNS回复
从中国蜂窝ISP的递归解析器中收集了我们的DNS数据。一旦连接到蜂窝网络,移动终端将自动分配ISP运行的递归解析器。递归解析器从客户端主机接收主机名解析请求,并与分层命名系统迭代交互以将名称转换为IP地址。此迭代过程的最后一步涉及联系维护所查询名称映射到地址的权威服务器。权威服务器通常将名称映射到尽可能接近递归解析器的域托管服务器,希望托管服务器也靠近客户端主机。
记录由递归解析器的标识符,时间戳,请求的域名,响应中的IP列表以及响应中的返回代码组成
2015年2天收集到55412725137条记录,其中96.76%请求成功
- 数据预处理:为了简化对如此庞大的数据集的分析,我们使用公共后缀库将DNS FQDN(完全限定域名)映射到其二级域(SLDs)——1410727SLDs
- 查询Team Cymru映射到AS号
- 进一步将DNS响应中的IP地址聚合到/ 24子网中,以检查域的网络覆盖区
与内容相关的指标
-
CDP:content delivery potential,衡量AS可能提供的内容量
C D P i = ∣ S i ∣ R CDP_i = \frac{|S_i|}{R} CDPi=R∣Si∣ -
CMI:content monopoly index:AS托管其他人没有的内容的程度
C M I i = f r a c 1 S i ∑ j ∈ S i 1 m j CMI_i = frac{1}{S_i} \sum _{j \in S_i} \frac{1}{m_j} CMIi=frac1Sij∈Si∑mj1
高CMI意味着某些内容仅在AS中可用。
结果
Content Potential of ASes
大多数查询都解决了ISP,而非三方托管;受欢迎的域在被检查的ISP中得到了很好的复制。
b:都低于6%,因为大多数域只能在一个AS中使用。
利用余弦相似度计算两个域的相似程度发现绝大多数相似性很低
Content Hosting Provider Analysis
聚类:
- 一些蔟被标记成多个拥有者:因为某些域可能会利用多个CDN进行内容分发。
- 一些拥有者有多个蔟:所有者可能提供多种类型的服务
922个蔟
Tracker Hosting Infrastructure
为了识别跟踪域,我们使用了广告拦截器提出的跟踪器列表:EasyList、Simple Malvertising
观察到跟踪查询集中在少数跟踪器中,其中大多数是基于美国的。此外,超过20%的跟踪流量流出中国。这些观察提出了隐私和网络安全问题。分析还表明,多种类型的基础设施用于跟踪服务托管。
跟踪查询比率的双峰分布表明,60%的跟踪服务器专门提供跟踪服务。监控流向这些服务器的流量可能有助于我们找到依赖这些服务器进行内容交付的新跟踪器。 ISP和移动应用程序也可以使用此观察来阻止跟踪活动以解决隐私和安全问题。
总结
中国的ISP和CDN遵循全球密切合作的趋势
观察期仅为两天