数据挖掘在垃圾邮件过滤中的应用
李强 071221054
(南京大学计算机科学与技术07级 江苏省 南京市 210000)
Application of data mining in Spam filtering
Li Qiang 071221054
(Department of Computer science and technology,Nanjing university,Nanjing,210000)
Email:njuigod@gmail.com
Abstract: In recent years, the spam problem has been series concerned by the computer, commercial, legal and other circles ,and there were already a number of specific international conferences in this field. Content-based spam filtering is an important method to solve the spam problem. This paper summarizes the current status of the study in this field, questions about the problems on the existing corpora and gives the prospect.
Key words:Data mining Spam filtering Corpora
摘要: 近年来, 垃圾邮件问题已经得到了计算机、商业、法律等各界人士的广泛关注,目前已经有专门针对该领域的多项国际会议。基于内容的垃圾邮件过滤是解决垃圾邮件的重要方法。本文总结了目前该方法的研究现状,对现有语料库存在的问题提出了质疑并给出了展望。
关键词:数据挖掘 垃圾邮件过滤 语料库
1. 前言
1.1关于数据挖掘
数据挖掘有很多种定义与解释,例如“识别出巨量数据中有效的、新颖的、潜在有
用的、最终可理解的模式的非平凡过程 [1]。” 大体上看,数据挖掘可以视为机器学习和数据库的交叉,它主要利用机器学习界提供的技术来分析海量数据,利用数据库界提供的技术来管理海量数据。[2]
在我看来,数据挖掘的意义却不限于此,尽管数据挖掘技术的诞生源于对数据库管理的优化和改进,但时至今日数据挖掘技术已成为了一门独立学科。在学习数据挖掘并寻找资料完成数据挖掘作业的过程中,有一个问题成为了我思考的重点----训练集的构建问题,我将会在本文第五部分阐述我的观点。
1.2 垃圾邮件的定义及显著危害
2000年8月,中国电信制定了垃圾邮件处理办法,并将垃圾邮件定义为:向未主动请求的用户发送的电子邮件广告、刊物或其他资料;没有明确的退信方法、发信人、回信地址等的邮件;利用中国电信的网络从事违反其他ISP的安全策略或服务条款的行为;其他预计会导致投诉的邮件。
2002 年5月20日,中国教育和科研计算机网公布了《关于制止垃圾邮件的管理规定》,其中对垃圾邮件的定义为:凡是未经用户请求强行发到用户信箱中的任何广告、宣传资料、病毒等内容的电子邮件,一般具有批量发送的特征。
中国互联网协会在《中国互联网协会反垃圾邮件规范》中是这样定义垃圾邮件的:本规范所称垃圾邮件,包括下述属性的电子邮件:(一)收件人事先没有提出要求或者同意接收的广告、电子刊物、各种形式的宣传品等宣传性的电子邮件;(二)收件人无法拒收的电子邮件;(三)隐藏发件人身份、地址、标题等信息的电子邮件;(四)含有虚假的信息源、发件人、路由等信息的电子邮件。
在《百度百科》中总结了垃圾邮件的几点显著危害:
(1).占用网络带宽,造成邮件服务器拥塞,进而降低整个网络的运行效率;
(2).侵犯收件人的隐私权,侵占收件人信箱空间,耗费收件人的时间、精力和金钱。有的垃圾邮件还盗用他人的电子邮件地址做发信地址,严重损害了他人的信誉;
(3).被黑客利用,成为助纣为虐的工具。
(4).严重影响ISP的服务形象。在国际上,频繁转发垃圾邮件的主机会被上级国际因特网服务提供商列入国际垃圾邮件数据库,从而导致该主机不能访问国外许多网络。而且收到垃圾邮件的用户会因为ISP没有建立完善的垃圾邮件过滤机制,而转向其它ISP 。一项调查表明:ISP每争取一个用户要花费75美元,但是每年因垃圾邮件要失去7.2%。