如果简单的将Classification看成一个Regression的问题,会发现Regression的评价标准并不适用于Classification(回归的本质是让损失函数尽可能的小,而分类只看重类别并不关心损失函数的大小)。在处理过程中将目标可描述化(用一个或一组数字描述目标)。
朴素贝叶斯算法
假设某一种事物只有和两种类别,从该种事物中任取一个记为。根据贝叶斯概率公式和全概率公式可以得到。
当时将划分为类别,否则将其划分为类别。将和两种类别的分布看成高斯分布,则通过和两种类别已有的数据训练得到其高斯分布的模型并通过训练得到的模型来预测从或类别取到的概率,即和,然后代入上式即可求得。
如何求得高斯分布的模型?
Gaussian Distribution:,均值,协方差矩阵。
Maximum Likelihood:假设是从被给的高斯分布所生成的79个数据,根据极大似然估计原理,可以得到,对其微分求解可以得到,,在将带入高斯分布中即可预测概率密度。在求解高斯分布时常常共用一个协方差矩阵(不同类别的按加权平均得到新的)。
对于上式,有,令,其中称为Sigmoid函数。将高斯分布概率密度带入其中可得,
其中分别是类别的个数,当这两种类别的协方差矩阵时上式化简为,令,可得,故已知即可求得。