一、基本分析
当我们观察⼀封邮件的组成部分的时候,我们可以看到到以下5个部分:发件⼈,收件⼈,发送时间,邮件主题,邮件内容。
那么这五个特征值可以⽤来帮助区分⼀封邮件是否是垃圾邮件。我们需要统计垃圾邮件在每个特征上的分布,如果正常邮件和垃圾邮件在该特征值上是均匀分布的,那么这个特征值对区分垃圾邮件的帮助就不是很⼤,可以删除。
二、运行代码:
三、运行结果
一、基本分析
当我们观察⼀封邮件的组成部分的时候,我们可以看到到以下5个部分:发件⼈,收件⼈,发送时间,邮件主题,邮件内容。
那么这五个特征值可以⽤来帮助区分⼀封邮件是否是垃圾邮件。我们需要统计垃圾邮件在每个特征上的分布,如果正常邮件和垃圾邮件在该特征值上是均匀分布的,那么这个特征值对区分垃圾邮件的帮助就不是很⼤,可以删除。
二、运行代码:
三、运行结果