论文笔记|Overcoming the challenge for text classification in the open world

本文介绍了开放领域文本分类问题,重点探讨了Nearest Centroid Class (NCC) 模型,这是一种结合了增量学习和距离度量的集成学习方法。通过DBSCAN确定类质心,并根据预测结果动态调整ball半径,NCC在20 newsgroups和Amazon reviews数据集上表现出较高的识别性能,尤其在大量类别下仍能保持相对稳定的精准率。
摘要由CSDN通过智能技术生成

作者:徐甘霖

单位:燕山大学


文章概述

       文本分类是指从不同类列的文本文档进行归类处理。传统的分类算法假设训练数据集与测试数据集具有相同的数据类别,而如果某些测试数据的类别没有在训练数据集出现过,我们称之为未知类别(unknow),于是引申出开放领域文本分类问题。在开放领域文本分类中,分类器能否有效识别出未知类及其分类性能的好坏是当今研究的一个热点问题。

相关研究

       开放领域文本分类的研究方法主要有三种:一是基于阈值的方法,二是基于中心相似性的方法,三是增量学习的方法。
       第一种方法的主要思想是计算被测试点与各个已知类别的距离,包括欧几里得距离、余弦距离等。将距离与为每个类别设定的阈值相比较,从而确定该点是正常值还是异常值(outlier),我们把异常值归为未知类别(unknown)。基于阈值策略在很多研究中被称作“拒绝机制”。基于中心相似性的典型方法将每个看成一个ball,这样每个类原始数据表示问题被转化为ball的均值表示,通过通过限制每个ball的边界可以解决传统SVM的open space risk,并且可以有效检测未知类。这个方法的明显的缺点是由于差采样导致未知类别出现在训练集中。第三中增量学习的方法适应了数据连续的特征,且并不需要随着数据的投入从头开始训练模型,这一点对于连续数据非常重要。

Nearest Centroid Class mode

        作者提供了一中带有增量学习思想的基于距离的集成学习方法,即Nearest Centroid Class mode。该算法中使用多个质心(Centroid)代表一个相应类别,能够最小化分类误差,这对于解决领域分类问题中是一

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值