作者:徐甘霖
单位:燕山大学
文章概述
文本分类是指从不同类列的文本文档进行归类处理。传统的分类算法假设训练数据集与测试数据集具有相同的数据类别,而如果某些测试数据的类别没有在训练数据集出现过,我们称之为未知类别(unknow),于是引申出开放领域文本分类问题。在开放领域文本分类中,分类器能否有效识别出未知类及其分类性能的好坏是当今研究的一个热点问题。
相关研究
开放领域文本分类的研究方法主要有三种:一是基于阈值的方法,二是基于中心相似性的方法,三是增量学习的方法。
第一种方法的主要思想是计算被测试点与各个已知类别的距离,包括欧几里得距离、余弦距离等。将距离与为每个类别设定的阈值相比较,从而确定该点是正常值还是异常值(outlier),我们把异常值归为未知类别(unknown)。基于阈值策略在很多研究中被称作“拒绝机制”。基于中心相似性的典型方法将每个看成一个ball,这样每个类原始数据表示问题被转化为ball的均值表示,通过通过限制每个ball的边界可以解决传统SVM的open space risk,并且可以有效检测未知类。这个方法的明显的缺点是由于差采样导致未知类别出现在训练集中。第三中增量学习的方法适应了数据连续的特征,且并不需要随着数据的投入从头开始训练模型,这一点对于连续数据非常重要。
Nearest Centroid Class mode
作者提供了一中带有增量学习思想的基于距离的集成学习方法,即Nearest Centroid Class mode。该算法中使用多个质心(Centroid)代表一个相应类别,能够最小化分类误差,这对于解决领域分类问题中是一