使用朴素贝叶斯算法实现中文邮件分类_基于机器学习(朴素贝叶斯)的垃圾邮件检测...

1.概念介绍。

机器学习我们一般可以分为两大类,模式识别和异常检测。从行为来看,模式识别和异常检测边界比较模糊。在模式识别中,我们试图发现隐藏在数据中的显式或潜在的特性,形成特征集进行分类判断。异常检测从另一个维度进行知识发掘,最后的目标是建立给定数据中大部分的正太性,不是学习某些数据子集存在的特定模式,从各种正常情况的偏离都是异常行为,这也就是异常检测,比如说离群点检测。

2.背景介绍

邮件已在日常工作中应用非常广泛,是我们日常办公必不可少的通讯工具之一,随着邮件的使用频率越来越高,垃圾邮件也随之而来。垃圾邮件的爆发,困扰着每一位深度邮件使用者,目前各大安全厂商提供非常多的反垃圾邮件系统,可相对有效保障我们在工作过程中不被垃圾邮件所侵扰,本篇利用朴素贝叶斯对垃圾邮件语料库进行训练分类,最终达到可期的垃圾邮件检测效果。

我尽可能将代码注释写详细,即使不懂代码也可大体了解其实现流程和原理。

3.功能实现

1.语料库选择

中文垃圾邮件语料下载地址:https://plg.uwaterloo.ca/~gvcormac/treccorpus06/

e9946daa1dfb061efb106c6af2ca5ab6.png

选择中文

  • 0
    点赞
  • 18
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值