基本原理是:
1.拿到一批英文邮件,其中标记好哪些是正常,那些是垃圾,作为训练和测试样本
2.5000个样本,随机取4000个作为训练样本,另外1000个作为训练完成后的测试样本来验证判断效果准不准
3.对邮件进行预处理,把词缀ing,ies,es,ed,ied去除,这样使得不同时态的单词当成相同单词来处理,对所有数字统一替换为字符串“number”,对网址统一替换为“addr”,对网页标签字符直接删除,这些预处理的目的是把这些内容当成相同的特征来对待,提高准确率。
4.把所有英文常用词(这里只取1899个)放在一个数组里,检查每个训练样本,看是否含有这些常用词,含有就标1,不含就标0,做成个1899*1的数字向量。向量就是一维数字型数组,矩阵是二维数字型数组。
5.所有4000个样本的向量组成一个维度是4000*1899矩阵,用大写字母X表示。
...