首先从监督学习来认识
1.监督学习的主要任务就是学习一个模型,应用这一模型,对给定的输入预测相应的输出。这一模型的一般形式为决策函数: Y=f(X)
或条件概率分布: P(Y|X) 。
2.监督学习的方法又可以分为生成方法和判别方法,所学到的模型分布称为生成模型和判别模型。
3.生成方法由数据学习联合概率分布 P(X,Y) ,然后求出条件概率分布 P(Y|X) 作为预测的模型。即生成模型: P(Y|X)=P(X,Y)P(X) 。
之所以称为生成方法,是因为模型表示了给定输入X产生输出Y的生成关系: P(Y|X) 。
典型的生成模型有:朴素贝叶斯法、隐马尔科夫模型、高斯混合模型。
4.判别方法由数据直接学习决策函数 f(X) 或者条件概率分布 P(Y|X) 作为预测的模型,即判别模型。
典型的判别模型包括:KNN、感知机、决策树、线性回归、逻辑斯蒂回归模型、支持向量机、神经网络、boosting提升方法。
昨晚已经写完了,然后电脑突然关机,打开之后,什么都没有了,,心碎……..
朴素贝叶斯法
1.朴素贝叶斯法是利用贝叶斯定理来进行分类的方法。它具有以下优点:
- 简单,快速,有效
- 能很好处理噪声,缺失数据
- 对小和大样本都可以
- 比较容易获得预测的概率估计
缺点:
- 要求特征间平等及重要性相同,特征相互独立(通常不会存在,这也是为什么要叫naive的原因)
- 对主要是大量数字特征的数据集不太适合
- 估计概率不如分类可靠(所以一般用它来分类)
2.朴素贝叶斯算法的学习与分类:
输入特征向量是n维向量的集合,记为 x∈χ ,输出为类标记 y∈γ ;
X是定义在输入空间