论文阅读:Supporting Early and Scalable Discovery of Disinformation Websites

Supporting Early and Scalable Discovery of Disinformation

1 背景&目的

  Disinformation Website,虚假信息网站。这些传播虚假信息的网站,影响大众的认知,制造舆论,理应被block,但是以往的方法都是通过人工进行区分。因此本文的目的是自动化地发现Disinformation Website。(后面我就用DIS网站代表这个虚假信息网站)

  本文设计了一个名为Disinfotron的系统,它可以实现自动化早期检测DIS网站,因为DIS网站的不良影响集中在最初发布后的一段时间内。因此早期检测使得DIS网站在流行起来产生广泛的负面影响之前,促使人们对其真实性进行手动审查。

2 虚假信息的定义

  以往的工作将虚假信息定义为:

  • 欺骗事实的意图
  • 损害的意图
  • 促进传播的意图

也有许多文章关注的是“fake news”假新闻,对于这一类别与虚假信息的关系也有不同的定义和不同的概念。

  本文使用的术语是Disinformation,定义:Disinformation website作为网站表现为提供政治、时事新闻,但是运作的方式明显不符合规范、标准、伦理

3 网站类别&数据集

  本文将待分类网站分类三类:

  • Disinformation:数据集包含769个DIS网站,其中582(76%)的网站处于不活跃的状态,要么不可用,要么就是在domain parking。通过重建,获得364(63%)个不活跃的域名,最终形成551个DIS网站。
  • news:随机抽取亚马逊Alexa Web信息服务中的275个和278个地方报纸、电视台、杂志网站目录中的新闻网站。共553个
  • other:从Twitter的流媒体API中采样建立了555个新闻网站

理由是分三类有利于特征工程。

4 特征工程

4.1 特征粒度

  在网站域名的粒度上研究DIS网站,而不是单个文章、声明、广告等。
  在域名粒度上分类有几个好处:

  • 早期警报(Early Warning):原则上,应该在DIS网站发布内容之前就识别它。
  • 长期价值(Longer-Term Value):DIS网站的文章和社交媒体具有固有生命周期,可能持续好几年
  • 平台独立(Platform Independence):识别虚假信息域是可行的,无需访问主要在线平台的内部账户和活动数据
  • 生态价值(Ecosystem Value):DIS的实时识别在整个互联网生态系统汇总都有价值,类似于恶意软件、钓鱼等。

4.2 特征

  主要关注3类特征:

  • Domain:与注册和操作域名相关的特征,包括DNS注册属性、域名本身、nameserver配置等
  • Certificate:来自TLS证书的特征,包括证书和证书权威属性
  • Hosting:与web托管基础设施相关的特性,包括网络级和应用程序级属性

这些特征与网站的基础设施有关,相对很少改变。遇到无法提取出的特征就标记为确实。

  1. 在Internet Archive Wayback Machine中获取那些网站还在互动时候的快照,通过检索原生HTML内容来提取hosting特征;
  2. 使用DomainTools API检索历史DNS和WHOIS记录(这些网站开始提供虚假信息的时间点开始),用来提取domain特征;
  3. 使用crt.sh Certificate Transparency日志数据库来恢复TLS证书。

下表为Disinfotron用来分类网站的特征集合。
在这里插入图片描述

4.3 Domain Features

  域名本身显示网站的信息。

  注册域名的过程反映registrar(域名注册的service provider)、registrant(注册域名的个人或组织)、注册情况(例如首次注册的日期)的信息

  DNS还显示网站使用的authoritative nameserver的信息。

1 注册商(registrar)

  使用WHOIS来识别每个域名的注册商,结果发现每个类别的绝大多数域名(DIS 84%、News 90%、other 82%使用top3的注册商)都依赖于相对较小的注册商,对于每个类别单独来讲,流行的注册商稍有不同,如下表。

在这里插入图片描述

2 注册者(registrant)

  使用WHOIS查询注册者,但并不总是可行的,因为它经常被WHOIS代理服务或越来越多的注册商隐私选项所掩盖。恶意网站的DNS记录经常掩盖注册者的身份,在DIS网站中也发现了类似的隐私保护模式。
  数据集的57%的DIS网站使用WHOIS Privacy。而只有9%的新闻网站使用WHOIS Privacy

3 注册信息(Registration)

  域名的注册信息可以提供一个网站的有用特性。例如新闻网站域名通常由十多年的历史,而DIS网站可能是刚刚注册,且短期到期。
在这里插入图片描述

4 域名本身(Domain Name)

  域名本身也包含有价值的信息。新闻网站倾向于使用一个流行的TLD,83.5%的新闻网站有一个a.com域名。

  DIS网站也好使用这些,它们有时候利用更新的TLD,包括.news .xyz .club

5 Nameserver

  每个公开网站都有一个权威nameserver,来解析域名。通过制造DNS请求,来识别第一个nameserver和它的ip。

  DIS网站使用廉价的nameserver提供商。这些提供商通常与网站托管平台有关,例如Cloudflare、HostGator、BlueHost,或者网站域名注册商,例如GoDaddy、Namecheap。

  新闻网站也经常使用这些提供商,但是他们也使用一组不同的 business-oriented nameserver提供商例如NS1或Qwest。

4.4 Certificate Features

  越来越多的网站支持使用HTTPS进行加密和认证的公共访问

  这些步骤内在地揭示了正在颁发的证书颁发机构(验证域所有者的服务提供者)和证书本身的属性(例如有效期和验证范围)。

1 SAN Count

  Subject Alternate Name 拓展,在TLS证书中,允许跨多个域共享一个证书。传统的TLS部署中,SAN字段描述属于单个组织的域名集合。

  越来越多的基础设施提供商使用SAN来有效地为使用共享基础设施托管多个域提供便利。例如,Cloudflare会自动在共享证书中包含数十个客户,除非客户为专用证书支付额外费用。

  直觉上新闻网站更有可能管理自己的证书或购买专门的证书,而DIS网站和其他网站有可能使用方便廉价的共享证书。但是与直觉相反,新闻网站比虚假信息网站更容易拥有多的SAN。一些母新闻机构已经配置了涵盖大量附属新闻机构的证书。
在这里插入图片描述

2 Configuration Error

  直觉上DIS网站更容易出现证书配置错误,因为它们不是由专业新闻机构管理的。但直觉相反,在这三类网站中,证书配置错误很少发生。

  可能是因为越来越多地使用自动平台来管理证书,以避免错误配置,或者因为证书错误很容易检测(通过HTTPS的网站不可用)并且很容易纠正。

4.5 Hosting Features

  这个特征与网站的托管基础设施有关,这些特征发生在域名注册和证书颁发之后,在添加内容和在社交媒体上传播之前。即服务器在地里位置上的位置,以及如何在网站上托管内容

1 CMS和插件(Content Management Systems and Plugins)

  许多网站使用CMS建立,应用程序级别的平台,定义了网站的样式和布局,促进内容发布和组织。

  直觉上DIS网站使用免费CMS,以及使用CMS Plugins进行社交媒体整合和搜索引擎优化,以及使用通用CMS主题的变体,而不是自己设计一个新的主题。

  结果发现WordPress的部署更加普遍,82%的DIS网站使用,20%的新闻网站使用。同时WordPress插件的分布不同于新闻和虚假网站。

2 托管提供商和地理位置(Hosting Provider and Location)

  使用DNS解析IP地址,使用BGP路由表来映射IP地址到AS,以及使用MaxMind GeoLite2数据库来映射IP地址到一个国家。直觉上DIS网站不对称地使用廉价的托管提供商,并在美国境外

  结果是86%的DIS,84%的新闻网站,80%的其他网站,托管在top3的AS中。(分别独立)

  与直觉一致的是,像GoDaddy和Namecheap这样廉价且面向大众市场的托管提供商在DIS网站中比在新闻网站中更常见。相比之下,新闻网站更频繁地使用像Incapsula这样的面向商业的付费网站。

  与直觉相反托管提供商的地理位置并不是一个特别有价值的特性。这三个类别的绝大多数网站都在美国托管

在这里插入图片描述

5 分类

  使用随机森林分类器,易于解释。250次5折交叉验证。Disinfotron能够有效区分三类网站。

在这里插入图片描述

6 先导测试(pilot test)

  Disinfotron先导测试的实施分为4个阶段:

  1. domain ingestion
  2. feature extraction
  3. classification
  4. human moderation

在这里插入图片描述

1)domain ingestion
  选择初始数据源,跨越DIS网站的生命周期早期(域名注册、整数颁发、网站部署)。数据源:

  • DomainTools:当有新的带有news关键字的域名注册时,DomainTools就会通知Disinfotron。
  • CertStream:会通知Disinfotron新颁发的TLS整数
  • Twitter and Reddit:Disinfotron从这里获取包含URL的发布活动

2)Feature Extraction
  Disinfotron发出DNS查询,发起TLS握手,并向候选域提交web请求。以提取之前提到的特征。

3)Classification
  使用提取的特征作为分类器的输入,将网站分类为虚假信息、新闻或其他

4)human moderation
  手工回顾分类输出样本。

  使用两台企业级服务器,一台提特征,一台分类。

7 结论

结论无非是总结一下工作,证明是可行的,展望一下未来。

  1. 虚假信息网站与真实新闻网站依赖不同的基础设施,监督机器学习可以利用这一差异进行自动识别。
  2. Disinfotron在历史数据上是准确的,在端到端、实时的试点部署中是可行的。
  3. Disinfotron的未来工作可能包括集成其他基础设施功能,如DNSSEC或电子邮件配置,或分析纵向趋势。
  4. 整合从发布的内容(例如,自然语言或感知属性)或从内容分布(例如,社交媒体共享或消费模式)中提取的特征,也将是一种自然的扩展,以提高Disinfotron在虚假信息网站生命周期后期的表现。
  5. 人机交互与信息安全的结合对解决这一严重的社会问题所起的作用。
  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值