2.2实验数据集:UCI Spambase Data Set
UCI数据集是是一个常用的标准测试数据集,是数据挖掘界中的公共测试数据集,由美国加州大学欧文分校(University of California Irvine)贡献,目前共有187个数据集,其数目还在不断增加。UCI数据集告诉了读者数据的属性和类别,用户可以用自己的数据挖掘方法去将 UCI 数据集进行分类,将结果与数据说明的结果对比,说明自己算法的正确性。
本次考核选用了其中的垃圾邮件数据集Spambase数据集,该数据集包含了4601 封邮件,其中2788 封垃圾邮件,1813 封正常邮件。
下载地址:http://archive.ics.uci.edu/ml/datasets/Spambase
要求:了解数据集各分类属性的含义。
Spambase数据集中的属性:
word_freq_make
word_freq_address
word_freq_all
word_freq_3d
word_freq_our
word_freq_over