简单的分类模型_微型分类模型-CSDN博客

本文链接：https://blog.csdn.net/starxu85/article/details/2497979

分类模型是文本分类的核心技术，大体上文本分类模型可以分为两种：基于规则的文本分类和基于统计的文本分类。

在基于规则的分类技术中首先需要根据某种假设建立起可用于分类的规则，该规则包括了文本的表示方法，类别的表示方法，文本与类别的映射方式等等，之后通过训练过程来完成规则的完善和调整，训练后则可以使用该规则来决定文本的类别完成分类。

决策树decision tree神经网络,支持向量机support vector machine等都是属于基于规则的分类方法(有争议,因为明显svm是基于统计学习理论的,但同时svm跟NN关系密切).
基于规则的分类方法理论基础强，合理性高，而且分类的规则易于为人们所理解，也易于改写成其他形式。但基于规则的分类方法实用性很差。这是因为现实中的数据集颇为庞大，在此种情况下，训练时规则的建立调整过程效率会很低。应用规则完成分类的效率也较差，此时基于规则的分类方法往往显得力不从心。

    在基于统计的分类方法中，或者依据某种统计后得到的客观规律，或者采用某种统计学中的定律，来完成分类器的建立工作，该种方法中的训练过程多为训练集上的某种统计和计算过程得到某些可以代表文本与类别之间关系的数据，在分类时分类器给出的通常为某种概率结果，比如朴素贝叶斯Naive Bayes，模型向量空间模型Vector space model， K近邻方法K-nearest neighbor。

基于统计的分类方法理论基础不强，但实用性强。

（1）基于TFIDF的Rocchio算法
    Rocchio算法来源于向量空间模型理论，向量空间模型Vector spacemodel的基本思想为采用向量来表示一个文本之后的处理过程，就可以转化为空间中向量的运算。基于TFIDF的Rocchio是这种思想的一种实现方法，其中以一个N维向量来表示文本，向量维数N即特征数，向量分量是特征的某种权重，表示该权值的计算方法称为TFIDF方法。通过TFIDF方法，首先将训练集中的文本表示为向量，然后生成类别特征向量，即可以用来代表一个类别的向量，类别特征向量取值为该类中所有文本向量的平均值。 Rocchio算法训练的过程，其实就是建立类别特征向量的过程，分类的时候给定一个未知文本，先生成该文本的向量，然后计算该向量与各类别特征向量的相似度，最后将该文本分到与其最相似的类别中去。向量的相似度度量方法有两种，以x,y代表向量，xi,yi代表向量分量，欧几里德距离和cosin。总体来看Rocchio算法简单易行运行速度尤其是分类速度较快。
（2）朴素贝叶斯
    贝叶斯分类是一种统计学分类方法，它基于贝叶斯定理，可以用来预测类成员关系的可能性，给出文本属于某特定类别的概率，分类时根据预测结果将该样本分到概率最高的类别中去即可。朴素贝叶斯分类模型训练的过程其实就是统计每一个特征在各类中出现规律的过程，从理论上，讲贝叶斯分类的出错率最小，就试验结果来看，朴素贝叶斯在大型的数据集上表现出来难得的速度和准确度。
（3）决策树Decision Tree
    决策树是一个类似于流程图的树结构，其中每个节点代表一个属性上的测试，每个分支代表一个测试输出，最后的叶结点代表类别。决策树方便改写为形如if- then的分类规则，易于理解。决策树的核心算法是一种贪心算法，它以自顶向下的方式在训练集的基础上构造决策树之后，取未知文本的属性，在决策树上测试路径由根结点到叶结点，从而得到该文本的所属类别。决策树的算法有C4.5（发展于ID3）CART，CHAID等，他们的区别在于构造决策树与树枝剪除的算法细节不同。决策树可以很好的抵抗噪声，最大的缺点在于不适应大规模的数据集，此种情况下决策树的构造会变得效率低下。
（4）K近邻分类K-nearest neighbor
    KNN的思想也来源于向量空间模型，同样采用将文本转化为向量的思想。KNN是一种基于类比的分类方法，在训练的过程中，KNN会生成所有训练例的特征向量，并将其保存下来。给定一个未知文本，首先生成它的特征向量之后，KNN会搜索所有的训练例，通过向量相似度比较，从中找出K个最接近的训练例，然后将未知文本分到这K个近邻中最普遍的类别中去，相似度可以通过欧几里德距离或cosin来度量根据
   KNN是一种懒散的方法，即它没有学习过程，只是存放所有的训练例直到接到未知文本的时候才建立分类。KNN的训练过程较快，而且可以随时添加或更新训练例来调整。但它分类的开销会很大，因为需要很大的空间来保存训练例，而且分类效率很差，有看法认为在小数据集上KNN的表现优异。
（5）支持向量机（SVM）这个不再说了，原来说过很多。svm有良好的泛化性，分类效果也比较显著，缺点就是速度比较慢，不适合大型数据