垃圾邮件分类器的原理(2)

基本原理是:
1.拿到一批英文邮件,其中标记好哪些是正常,那些是垃圾,作为训练和测试样本
2.5000个样本,随机取4000个作为训练样本,另外1000个作为训练完成后的测试样本来验证判断效果准不准
3.对邮件进行预处理,把词缀ing,ies,es,ed,ied去除,这样使得不同时态的单词当成相同单词来处理,对所有数字统一替换为字符串“number”,对网址统一替换为“addr”,对网页标签字符直接删除,这些预处理的目的是把这些内容当成相同的特征来对待,提高准确率。
4.把所有英文常用词(这里只取1899个)放在一个数组里,检查每个训练样本,看是否含有这些常用词,含有就标1,不含就标0,做成个1899*1的数字向量。向量就是一维数字型数组,矩阵是二维数字型数组。

5.所有4000个样本的向量组成一个维度是4000*1899矩阵,用大写字母X表示。

...

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值