科技资源文本层次多标签分类方法
1、背景
1、作者(第一作者和通讯作者)
王岳,李昂,李雅文
2、单位
北京邮电大学
3、年份
2022
4、来源
计算机工程与应用
2、四个问题
1、要解决什么问题?
科技资源文本往往带有关键词字段,本文解决如何利用关键词字段来对科技资源文本分类进行优化
2、用了什么方法解决?
提出基于注意力机制的科技资源文本层次多标签分类算法
3、效果如何?
实验结果验证了所提方法在科技资源文本层次多标签分类上的有效性
4、还存在什么问题?
论文笔记
1、相关工作
作者调研了层次多标签分类问题,指出了目前层次多标签分类存在的问题:忽略了层次结构不同级别之间的依赖关系,这会导致错误预测的向下传播和类成员不一致性。其中,HMCN整合了层次结构中每个层次的预测结果和整体层次结构。然而 HMCN 未能捕捉到文本和层次结构之间的关联。
层次多标签分类方法最重要的步骤之一是从上到下逐级揭示文本与层次结构中每个类别之间的关联,并以此为文本词向量赋予足够的权重,这需要使用到注意力机制。
2、科技资源文本层次多标签分类定义
科技资源文本层次多标签分类中,对于于一组文档,每篇文档包含标题、摘要和关键词。
层级结构定义&