DAY13

昨天有没有写博客,不过倒是有学习。昨天主要看了Machine Learning for Hackers一书,主要看了Cha3的邮件分类问题,主要是区别正常邮件和垃圾邮件。这里的使用的方法很简单,用了朴素贝叶斯分类器(Naive Bayesian Classifier),操作平台式R,用的主要软件包是tm(text mining)和ggplot2。tm软件包主要是用在文本信息挖掘的,ggplot2主要是发挥在构图层、画图上的强大功能。

在该书中,作者用到了SpamAssassin里的公开语料库里已存的垃圾邮件、正常易识别邮件和正常难识别邮件作为案例,前两类是作为训练样本,后一类作为验证样本。基本思想是统计垃圾邮件里词频,方法是构造Term Document Matrix,寻找所有特征词汇在垃圾邮件里的条件概率,然后同样的方法统计正常易识别邮件里的特征词汇的条件概率,(当然在这步之前剔除了488个最常见的英文停用词),之后就在验证邮件里寻找这些特征词(包括垃圾邮件特征词和正常邮件特征词),再分别计算它是正常邮件和垃圾邮件的条件概率,以概率大小作为它的判别依据。

非常开心地学到了很多R里tm软件包和ggplot2软件包的一些用法~ 今天也要继续努力啊,我得回学校了,加油!回去后是个崭新的自己~ 没有爱情的羁绊,没有退路,我一定为自己破釜沉舟!这是誓词~~~





  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值