由于最近老大给了一个评论打击系统的任务,所以又复习了下经典的朴素贝叶斯算法,关于机器学习的相关知识,已经好长时间没有看过了,忘得差不多了,下面简单的捋一捋吧
首先就是贝叶斯定理:
进行贝叶斯分类一般就是三个过程:
1、确定分类的特征属性,及其划分
比如:确定一个账号是真实帐号还是假账号中,确定的特征属性是:
a1:日志数量/注册天数,a2:好友数量/注册天数,a3:是否使用真实头像。在SNS社区中这三项都是可以直接从数据库里得到或计算出来的。
2、训练分类器(这是分类算法的关键)
所谓的训练分类器就是根据手动处理过的训练样本计算各种各样的概率
3、对待分类项进行分类
也就是对每个分类类别y分别计算p(y/x),然后比较哪个最大,最大的就是x的类别
注意:在这个过程中,影响分类器分类准确性的因素有:特征属性、特征属性划分及训练样本质量。