首先,机器学习可以理解为找到一个函数去做分类或者回归
其次,机器学习有如下三个步骤:
step 1: 确定模型或者函数集,比如 线性模型
step 2: 给出模型的评价准则(损失函数),比如误差平方和、交叉熵
step 3: 从函数集中选出一个最佳的函数,即选择最佳的一组模型参数使得损失函数达到最小
一、什么是生成模型
1.条件概率公式
2.贝叶斯公式
3.生成模型
假设表示第一类,表示第二类,则对于给定的生成模型如下:
参考上述提到的机器学习三步骤,在这里第一步我们选择了生成模型,那么如何选择评价准则或者损失函数来定义最佳的模型呢?
在这里最佳的函数或者模型可以理解为样本数据的分布的参数,比如已知数据样本服从正态分布,那么这里的最佳指的就是在所有的均值和方差中,和对应的正态分布产生该样本的概率最大。
step 1:生成模型
step 2 & step 3:评价准则:极大似然函数(maximum likelihood)
高斯概率密度函数:
其中
假设两类样本都服从高斯分布,且每一类中的样本都是独立采样,第一类有79个样本,第二类有61个样本
接下来
1)由两类样本分别求出对应的两个高斯分布,即两组均值向量、协方差矩阵
方法:极大似然
以第一类的均值向量和协方差矩阵求解为例:
按照该方法求解出、
2)代入生成模型
4.经典的生成模型之一:朴素贝叶斯(Naive Bayesian Model)
朴素贝叶斯分类(NBC)是以贝叶斯定理为基础并且假设特征条件之间相互独立的方法
5.生成模型的优缺点
优点;
(1)将先验知识考虑进去
(2)实际上带的信息要比判别模型丰富
(3)当样本数量较多时,生成模型能够更快地收敛到真实模型
缺点:
实践中多数情况下判别模型效果会更好
目录
4.经典的生成模型之一:朴素贝叶斯(Naive Bayesian Model)