引言
应用python语言开发,采用交叉验证法,以收集的一些英文邮件作为语料,应用朴素贝叶斯分类方法。设先验概率为50%,通过训练集计算特征项的条件概率,选出邮件中P(S|W)最高的15个词,计算它们的联合概率,以此为基础对邮件进行归类,以查准率和查全率为指标衡量应用的性能。
数据集
链接:https://pan.baidu.com/s/1UKf1Z5TRVjA3EAQx6wSS9A
提取码:rq33
代码
import os
def fileWalker(path,k):
fileArray = []
for l in range(1,26):
if l>=(k-1)*5+1 and l<=(k-1)*5+5:
continue
else:
eachpath = str(path+'\\'+str(l)+'.txt')
fileArray.append(eachpath)
return fileArray
def test_fileWalker(path,k):
fileArray = []
for l in range((k-1)*5+1,(k-1)*5+6):
eachpath = str