昨天有没有写博客,不过倒是有学习。昨天主要看了Machine Learning for Hackers一书,主要看了Cha3的邮件分类问题,主要是区别正常邮件和垃圾邮件。这里的使用的方法很简单,用了朴素贝叶斯分类器(Naive Bayesian Classifier),操作平台式R,用的主要软件包是tm(text mining)和ggplot2。tm软件包主要是用在文本信息挖掘的,ggplot2主要是发挥在构图层、画图上的强大功能。
在该书中,作者用到了SpamAssassin里的公开语料库里已存的垃圾邮件、正常易识别邮件和正常难识别邮件作为案例,前两类是作为训练样本,后一类作为验证样本。基本思想是统计垃圾邮件里词频,方法是构造Term Document Matrix,寻找所有特征词汇在垃圾邮件里的条件概率,然后同样的方法统计正常易识别邮件里的特征词汇的条件概率,(当然在这步之前剔除了488个最常见的英文停用词),之后就在验证邮件里寻找这些特征词(包括垃圾邮件特征词和正常邮件特征词),再分别计算它是正常邮件和垃圾邮件的条件概率,以概率大小作为它的判别依据。
非常开心地学到了很多R里tm软件包和ggplot2软件包的一些用法~ 今天也要继续努力啊,我得回学校了,加油!回去后是个崭新的自己~ 没有爱情的羁绊,没有退路,我一定为自己破釜沉舟!这是誓词~~~