论文笔记|Overcoming the challenge for text classification in the open world

最新推荐文章于 2022-05-13 11:05:00 发布

期待成功

最新推荐文章于 2022-05-13 11:05:00 发布

阅读量297

点赞数

分类专栏：笔记文章标签：自然语言处理深度学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/u011150266/article/details/116404431

版权

本文介绍了开放领域文本分类问题，重点探讨了Nearest Centroid Class (NCC) 模型，这是一种结合了增量学习和距离度量的集成学习方法。通过DBSCAN确定类质心，并根据预测结果动态调整ball半径，NCC在20 newsgroups和Amazon reviews数据集上表现出较高的识别性能，尤其在大量类别下仍能保持相对稳定的精准率。

摘要由CSDN通过智能技术生成

作者：徐甘霖

单位：燕山大学

文章概述

文本分类是指从不同类列的文本文档进行归类处理。传统的分类算法假设训练数据集与测试数据集具有相同的数据类别，而如果某些测试数据的类别没有在训练数据集出现过，我们称之为未知类别（unknow），于是引申出开放领域文本分类问题。在开放领域文本分类中，分类器能否有效识别出未知类及其分类性能的好坏是当今研究的一个热点问题。

相关研究

开放领域文本分类的研究方法主要有三种：一是基于阈值的方法，二是基于中心相似性的方法，三是增量学习的方法。
第一种方法的主要思想是计算被测试点与各个已知类别的距离，包括欧几里得距离、余弦距离等。将距离与为每个类别设定的阈值相比较，从而确定该点是正常值还是异常值（outlier），我们把异常值归为未知类别（unknown）。基于阈值策略在很多研究中被称作“拒绝机制”。基于中心相似性的典型方法将每个看成一个ball,这样每个类原始数据表示问题被转化为ball的均值表示，通过通过限制每个ball的边界可以解决传统SVM的open space risk，并且可以有效检测未知类。这个方法的明显的缺点是由于差采样导致未知类别出现在训练集中。第三中增量学习的方法适应了数据连续的特征，且并不需要随着数据的投入从头开始训练模型，这一点对于连续数据非常重要。

Nearest Centroid Class mode

作者提供了一中带有增量学习思想的基于距离的集成学习方法，即Nearest Centroid Class mode。该算法中使用多个质心（Centroid）代表一个相应类别，能够最小化分类误差，这对于解决领域分类问题中是一

最低0.47元/天解锁文章

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。