SURBL垃圾邮件检测机制-CSDN博客

本文链接：https://blog.csdn.net/max_ss/article/details/84334972

概述

SURBL全称Spam URL Realtime blocklists，它是出现在未经请求的信息中的网站列表。与大多数列表不同，SURBLs不是消息发送者列表。(参考：http://www.surbl.org/)

SURBL与大多数其他RBL的不同之处在于它们用于根据邮件正文URI（通常是网站）检测垃圾邮件。与大多数其他RBL不同，SURBLs不用于阻止垃圾邮件发件人。相反，它允许您阻止邮件正文中提到的具有垃圾邮件主机的邮件。（参考：https://blog.csdn.net/iteye_17322/article/details/81899119）

数据集

（参考：http://www.surbl.org/lists）

2.1 ABUSE

主要包含一般的垃圾站点(药片，假药，约会等等)。它结合了以前独立的JP、WS、SC和AB列表的数据。它还包括来自互联网安全、反滥用、ISP、ESP和其他社区(如Telenor)的数据。大多数滥用数据来自SURBL自己的内部专有研究。

包含的数据集有：jwSpamSpy + Prolocation sites、sa-blacklist web sites、SpamCop web sites、AbuseButler web sites

2.2 PH

PH钓鱼数据源中包含来自多个来源的钓鱼数据。钓鱼数据包括PhishTank、OITC、PhishLabs、恶意软件域和其他几个来源。

2.3 MW

列表包含来自多个源的数据，这些源覆盖了包含恶意软件的站点。这包括OITC、abuse.ch 以及来自恶意网站malwaredomains.com的DNS黑洞数据。一些被破解的主机也被包含在MW中，因为许多被破解的网站也有恶意软件。请注意，以上只是在MW中许多不同恶意软件数据源的抽样。

2.4 CR

这个列表包含来自多个来源的数据，这些数据覆盖了包括SURBL internal ones在内的多个被破坏的站点。犯罪分子窃取证书或滥用CMS的漏洞，如Wordpress或Joomla闯入网站并添加恶意内容。通常被破解的网页会重定向到垃圾网站或其他被破解的网站。被破解的网站通常仍然包含原始的合法内容，除了垃圾邮件中引用的恶意页面外，在合法的电子邮件中也可能被提及。

使用

所有源数据被集成到了一个统一的列表：multi.surbl.org。当DNS服务器发起domain. multi.surbl.org查询时，表明是向multi.surbl.org检查domain。若domain被源数据集匹配，则会返回一个127.0.0.*表示属于哪个恶意列表，同时retcode为0，表示匹配成功；相反，若没有匹配，则返回retcode为3表示找不到该domain。

“*”有四种基本取值以及其含义：

8 = listed on PH

16 = listed on MW

64 = listed on ABUSE

128 = listed on CR

同时“*”也可以是四种基本取值之和，如127.0.0.80，80=64+16，表明该url既属于MW，也属于ABUSE数据集中。

举一个例子：如果一个URL 'www.freeviagra.com'出现在电子邮件中，GWAVA（安全检测产品）会联系他们的DNS服务器并要求它在'freeviagra.com.multi.surbl.org'上进行查找（请注意附在域上的surbl服务器）。DNS服务器最终将联系multi.surbl.org并询问它是否识别该域。 Multi.surbl.org有两种回答：是的我认识到该域（意味着阻止它，因为它在我的黑名单中），或者我不认识那个地址（意味着该域未被列入黑名单）。 DNS仅仅是用于检查其黑名单的方法。