机器学习算法很多,常见的有朴素贝叶斯,逻辑回归,决策树,等等今天让我们开启对朴素贝叶斯的认识。。。
分类技术认识:
定义:给定一个对象X,将其划分为到预定义好的某一个类别Yi中。
-输入 : X
-输出: Y (取值于有限集合{y1,y2,y3....yn})
应用:邮件是否垃圾,病人分类,点击是否有效等等。
通俗理解:
这里输入对象是一篇文章X,那么到底是军事还是财经就是Y。
常见的分类有二值分类(男女)和多值分类(文章分类{政治,体育,科幻})
分类任务解决流程:
新闻分类
一:特征分类:X = {昨日,是,市场...} 【特征分类的前提是进行中文分词】
二:特征选择:X ={国内,国外...} 【对中文分词后的结果进行关键词提取】。
三:模型选择:朴素贝叶斯分类器【选择分类模型】
四:训练数据准备:
五:模型训练:
六:预测(分类):
七:评测:得到评测效果
常见分类技术:
--概率选择器
--NB
--计算待选择的对象属于每个类别的概率,选择概率最大的类别作为输出
--空间分割
--SVM :支持向量机 如下图: 缺点不适合样本量过大
上图有四种不同样本的类别,在空间上进行打点,经过学习得到一些线条,比如蓝色的部分,通过几条线,可以很清楚的把不同的样本分割开了,这就相当于在一个二维空间里,划线将样本进行分割,这样的算法就是空间分割类的算法,SVM就是这样的。
前面说了很多现在进入今天的正题,学习常见的分类算法朴素贝叶斯分类器。
三 朴素贝叶斯分类器:
公式:
P(yi|X)=P(yi)P(X|yi)/P