背景
分类算法中的类目数量并非一成不变,现阶段有监督模型只能针对固定类目数量/结构的样本进行学习,当出现新类目时,无法第一时间完成有效分类。这在实际应用中会对标签的维护工作造成人力与资源的浪费。
举例:
- 短视频出现初期:2级类目新增「短视频」分类,并归为1级类目「视频」下
- 短视频出现中期:「短视频」被调整为1级类目,新增「直播」、「带货」等2级类目到「短视频」下
- 短视频出现后期:「短视频」被单独拉出做只针对短视频的视频分类,重建属于短视频的类目体系
- 短视频发展中期:「长短视频」类目体系重新融合
调研
基本分类算法
- 相似度模型:K-近邻,Rocchio
- 概率模型:贝叶斯
- 线性模型:SVM
- 非线性模型:神经网络,决策树
实际使用较多的为基于神经网络的非线性分类模型,主要流程分为:数据准备、特征提取、模型训练、新样本预测4个基本阶段。
检索关键词
- 自适应分类算法 adaptive classification
- 动态分类算法 dynamic classification
- 动态标签分类 dynamic label classification
- 多标签动态分类 multi-label dynamic classification
- 可变标签分类 changeable label classification
- 适应器分类 adaptor classification
检索结果分类
- 医学领域:针对动态的数据比如ecg心电图,分类模型大多为二分类模型,主要应用在病情诊断、预防
- 半监督学习:利用现有labeled数据结合人工小量级标注,实现半监督学习,但预测体系仍旧限制在特定集合中
- 预训练模型:文本分类领域自适应模型,finetune,同样没有解决标签变化问题
- 数据流分类:概念自适应快速决策树系列,更专注与分类的速度与时效性,允许准确率较低的存在,不适用视频分类
- 无监督自适应分类:类似于K-means聚类,不适合视频分类
- 半监督动态标签:图分类网络,为图中节点进行聚类,不适合视频分类
调研结果总结
暂时未见完美贴合背景的动态分类模型,类目数量或者结构的变化极大概率伴随着模型的重新训练或者微调。
问题转换
问题拆解
自适应分类问题可以针对预测类目的变化进行适当拆解
- 类目新增(新类目缺少样本,模型需要重新训练)
- 类目删除(所删类目为次要类目,或准确率一般的类目时可以对模型0修改)
- 类目调整(针对低层级类目进行预测,通过类目邻接矩阵完成映射,只需调整邻接矩阵)
问题拆解后发现,只有类目新增需要针对模型进行调整,进一步针对类目新增进行问题转换:
新类目缺少样本
- few-shot甚至是zero-shot问题「新增类目的极端场景,类目结构全部被替换,同时面临没有样本的问题」
- 样本分布存在极度不均衡问题「新增类目的一般场景,旧有结构存在一部分被保留」