高性能文本分类算法：DragPushing-CSDN博客

　　文本分类算法可以大致总结如下：

　　高精度算法：SVM、Boosting。这类算法的分类精度很高，但训练与分类时间很长，往往难以满足大规模问题的需要；

　　高速度算法：Centroid、Rocchio、Winnow等。这类算法的训练与分类时间与问题的规模成线性关系，但分类精度往往不太理想。

　　DragPushing策略的目标是得到一种既好又快的文本分类算法：精度可以与SVM相当；而运行时间与Centroid保持相当。其基本思想是：对被错误分类的训练样本，拉近与正确类代表之间的距离；推远与错误类代表之间的距离。类代表，可以是中心向量、类中样本及概率中心(即类中属性的概率)。示意图如下：

对于样本d，其正确分类应是A。但是使用分类规则时，却将d划分为B类(相似性度量上是Sim(A_original,d) < Sim(B_original,d)，用距离表示则是d离A远，离B近)。此时，将对A类代表进行Drag操作，对B类代表进行Push操作，实现样本d偏离B类代表靠近A类代表的效果。一次迭代过程中，对于所有错分类的样本，都执行相应的Drag/Push操作，多次迭代后的即可达到一个很好的效果。

　　将DragPushing策略应用到Centroid算法中，过程如下：对于一个文档(document)，其中每一个出现的词权重采用tf-idf计算方式，并进行归一化处理