学习笔记（十六）：CNN识别垃圾邮件

最新推荐文章于 2024-03-20 18:44:03 发布

林咚咚

最新推荐文章于 2024-03-20 18:44:03 发布

阅读量1k

点赞数

分类专栏： python web安全

本文链接：https://blog.csdn.net/weixin_39878297/article/details/84239845

版权

1.数据集清洗

（load_one_file()这里需要注意一下，系统默认utf-8编码，但是"utf-8"以及"gbk"编码数据集文件都会报错，所以使用encoding="cp852")

def load_one_file(filename):
    x=""
    with open(filename,encoding="cp852") as f:
        for line in f:
            line = line.strip()
            line=line.strip('\n')
            line = line.strip('\r')
            x+=line
    return x

def load_files_from_dir(rootdir):
    x=[]
    list = os.listdir(rootdir)
    for i in range(0, len(list)):
        path = os.path.join(rootdir, list[i])
        if os.path.isfile(path):
            v=load_one_file(path)
            x.append(v)
    return x

def load_all_files():
    ham=[]
    spam=[]
    path="enron1/ham/"
    print("Load %s" % path)
    ham+=load_files_from_dir(path)
    path="enron1/spam/" 
    print("Load %s"

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

林咚咚

关注关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
2
评论
学习笔记（十六）：CNN识别垃圾邮件

1.数据集清洗（load_one_file()这里需要注意一下，系统默认utf-8编码，但是"utf-8"以及"gbk"编码数据集文件都会报错，所以使用encoding="cp852")def load_one_file(filename): x="" with open(filename,encoding="cp852") as f: for line ...
复制链接

扫一扫