自适应分类算法调研记录

背景

分类算法中的类目数量并非一成不变,现阶段有监督模型只能针对固定类目数量/结构的样本进行学习,当出现新类目时,无法第一时间完成有效分类。这在实际应用中会对标签的维护工作造成人力与资源的浪费。
举例:

  • 短视频出现初期:2级类目新增「短视频」分类,并归为1级类目「视频」下
  • 短视频出现中期:「短视频」被调整为1级类目,新增「直播」、「带货」等2级类目到「短视频」下
  • 短视频出现后期:「短视频」被单独拉出做只针对短视频的视频分类,重建属于短视频的类目体系
  • 短视频发展中期:「长短视频」类目体系重新融合

调研

基本分类算法

  • 相似度模型:K-近邻,Rocchio
  • 概率模型:贝叶斯
  • 线性模型:SVM
  • 非线性模型:神经网络,决策树

实际使用较多的为基于神经网络的非线性分类模型,主要流程分为:数据准备、特征提取、模型训练、新样本预测4个基本阶段。

检索关键词

  1. 自适应分类算法 adaptive classification
  2. 动态分类算法 dynamic classification
  3. 动态标签分类 dynamic label classification
  4. 多标签动态分类 multi-label dynamic classification
  5. 可变标签分类 changeable label classification
  6. 适应器分类 adaptor classification

检索结果分类

  • 医学领域:针对动态的数据比如ecg心电图,分类模型大多为二分类模型,主要应用在病情诊断、预防
  • 半监督学习:利用现有labeled数据结合人工小量级标注,实现半监督学习,但预测体系仍旧限制在特定集合中
  • 预训练模型:文本分类领域自适应模型,finetune,同样没有解决标签变化问题
  • 数据流分类:概念自适应快速决策树系列,更专注与分类的速度与时效性,允许准确率较低的存在,不适用视频分类
  • 无监督自适应分类:类似于K-means聚类,不适合视频分类
  • 半监督动态标签:图分类网络,为图中节点进行聚类,不适合视频分类

调研结果总结

暂时未见完美贴合背景的动态分类模型,类目数量或者结构的变化极大概率伴随着模型的重新训练或者微调。

问题转换

问题拆解

自适应分类问题可以针对预测类目的变化进行适当拆解

  1. 类目新增(新类目缺少样本,模型需要重新训练)
  2. 类目删除(所删类目为次要类目,或准确率一般的类目时可以对模型0修改)
  3. 类目调整(针对低层级类目进行预测,通过类目邻接矩阵完成映射,只需调整邻接矩阵)

问题拆解后发现,只有类目新增需要针对模型进行调整,进一步针对类目新增进行问题转换:

新类目缺少样本

  • few-shot甚至是zero-shot问题「新增类目的极端场景,类目结构全部被替换,同时面临没有样本的问题」
  • 样本分布存在极度不均衡问题「新增类目的一般场景,旧有结构存在一部分被保留」

该项目暂停ing

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值