朴素贝叶斯
朴素贝叶斯分类法是统计学分类方法,在特征条件独立的前提下,基于贝叶斯定理计算的隶属关系概率进行分类。
朴素贝叶斯分类有着坚实的数学基础和稳定的分类效率,同时,分类模型需要估计的参数很少,对缺失数据不太敏感,算法也比较简单。
从理论上讲,朴素贝叶斯分类模型与其他分类方法相比的误差率最小,但是实际上并非总是如此,这是因为朴素贝叶斯分类模型假设各属性之间相互独立,然而这个假设在实际应用中往往是不成立的,因此,这在一定程度上影响了模型的正确分类。
决策树
决策树是一种类似于流程图的树结构。其中,每个内部节点代表在一个属性上的测试,每个分支代表该测试的一个输出,每个叶节点代表存放一个类标号,顶层节点是根节点。
在构造决策树时,使用属性选择度量来选择将元组划分成不同的类的属性。决策树中的许多分枝可能反映训练数据中的噪声或离群点,使用剪枝识别来减去是这种分枝,以提高泛化性。
常用的决策树模型包括ID3、C4.5和CART。它们都采用自上到下递归的分枝方式构造决策树,各算法之间的差别在于创建决策树时如何选择属性和剪枝机制。
K最近邻分类
K最