1.利用Regression来分类
示例:
当有上图右小角的点的时候,这些点会大幅改变分类线的位置。这时候就会导致整体的回归结果变差。当把多分类当成回归问题,类别分别为1,2,3,4……,因为回归的问题是预测具体的值,这样定义类别就默认这些数据之间有相应的关系。如果数据间没有具体的这些数字关系,就会导致最后的回归结果变差。
2.分类的方法
下图中,可以利用一些Model进行分类,根据结果划分分类,同时损失函数为分类结果错误的个数
常见的分类方法有SVM(支持向量机)
x的概率,下面有两个分类
下面对Pokemon进行分类实验:
pokemon的分类中,每个pokemon用一个向量vector表示,每个属性即特征Feature。
假设pokemon的分布符合高斯分布(正太分布),
利用最大似然法得到样本点的高斯分布:
最大可能性
计算结果得到样本的最大可能分布:
接下来利用样本得到的概率模型可以对一些未知的pokemon进行分类:
分类结果(不好):
下面的颜色表示不同的概率:
模型的改进
利用不同的mean和Covariance来确定高斯分布,会由于参数的过多导致结果不好,实际上这是由于参数多导致的overfitting,可以通过减少参数的方法来改进模型。
下面利用相同的的Covariance来预测模型
相同的covariance通过加权平均计算得到
模型效果:
复习一下几率产生模型,主要有以下三个步骤
朴素贝叶斯
后验概率
上图中有一个Sigmoid函数
关于这个函数将在Logistic 回归中着重介绍。