2021研一（上学期工作总结）

最新推荐文章于 2025-04-25 15:20:26 发布

lvntai

最新推荐文章于 2025-04-25 15:20:26 发布

阅读量2.4k

点赞数

文章标签：聚类机器学习数据挖掘

本文链接：https://blog.csdn.net/lvntai/article/details/122122852

版权

本文介绍了多标签主动学习的基本概念及研究进展，探讨了多标签问题处理方法，并实现了经典算法ML-KNN。此外，还详细解析了MAMO算法流程，并讨论了HML-KNN算法的改进之处。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

一确定方向

确定了以多标签主动学习为当前阶段的研究方向。

二了解方向的一些基本概念

多类别问题：表示超过2个类别的分类问题，比如：一个人是男和女就是是个二分类问题，多分类问题是在二分类的问题基础上面增加类别，比如一个水果，是梨、苹果还是橙子。此类问题是建立在一个样本只属于一个类别的假设基础上的。
多标签问题：这类问题的目的是给每一个样本添加一系列的目标标签。和多分类问题的重要区别就是：每一个标签并非是互斥的。比如一个话题，它可以是政治、金融、教育的，可以是政治、金融的、也可以是教育的、当然也可以不属于上述任何一个内容的。
多输出回归问题：可以看出是一个样本的多个回归问题，为一个样本的多个属性预测目标值，比如预测一个位置的温度、湿度等。
多任务问题：我的理解是多分类问题的多标签版本。比如上述多标签问题的例子：一个话题，它可以是政治、金融、教育的，三个子问题是三个二分类：这个话题是或不是政治、是或不是金融、是或不是教育的。多任务分类就是把子问题扩展为多分类问题。比如：一个学生，数学分为ABC三个等级、语文分为ABC三个等级、英语分为ABC三个等级，要预测一个学生的语数英是AAA、AAB、BAC等级别就是一个多任务分类问题。这里的数学、语文、英语就是label、ABC就是class
监督学习：通过已有的一部分输入数据与输出数据之间的对应关系，生成一个函数，将输入映射到合适的输出，例如分类。
非监督学习：直接对输入数据集进行建模，例如聚类。
半监督学习：综合利用有类标的数据和没有类标的数据，来生成合适的分类函数
主动学习：当我们获取样本困难，需要领域内专家进行人工标注，且训练规模庞大，时间花费较多，需要使用较少的训练样本获取性能较好的分类器时采用。主动学习是通过一定的算法获取最有用的未标记样本，并交由专家进行标记，优化分类模型，在训练集中已标注数据上学习得到的知识作为先验信息，利用该先验知识对测试分布中未标注数据包含的信息进行判断，选择对模型训练最有力的数据集进行标注，已达到减少分类模型训练过程所需标注代价的目的。

在这里插入图片描述

三目前进展（已完成）

python学习：基本会使用python代码，会调用python中的包，会实现基本机器学习的各种模型。
了解多标签问题的一般处理思路：多标签数据学习方法主要分为两种，一种问题转换法，包括转换为二分类、转换为标签排序、转换为多分类。另一种是算法适应法，包括Lazy learning(如ML-KNN)、Decision tree(如ML-DT)、Kernel learning(如Rank-svm)、Neural network(如BP-MLL)、information-theoretic(如CML)、Spectral analysis(如MLLS)
机器学习：对监督学习中的回归（输出值连续），进行了其中线性回归，岭回归的学习与代码实现，对分类问题（输出值离散）其中的knn（k近邻），决策树，随机森林进行了学习与代码实现。对半监督学习中的svm进行了学习。
主动学习：学习了ML-KNN（ML-KNN则是在KNN的基础上进行了改进, 并不是简单的“少数服从多数”, 而是通过贝叶斯准则和大后验概率计算得到新标签.），BP-MLL等经典多标签适应算法。
论文阅读：阅读了7，8篇关于机器学习各类方法的论文（未精读），重点学习了本实验室的论文：页岩气储层预测的多标签主动学习算法,但鉴于数学功底和代码的熟练程度未能实现MAMO算法，只大致理解了MAMO的实现流程。既

第一，利用基于密度峰值的快速聚类算法
第二，利用无参数概率密度估计的方法，选择高斯核函数和窗口宽度，利用概率密度函数得到样本的统计概率，从而得到每个样本的代表性
第三，从样本属性和样本标签两个角度考虑，加入丰富性约束。为了保证选择的训练样本尽可能的丰富，定义样本之间的属性差异性阈值，从而避免选择相似的样本；为了保证选择的样本所具有的标签足够丰富，利用第一步中softmax预测的标签值，获得每次查询过程的样本丰富性，并定义标签丰富性阈值。当同时满足属性差异性和标签丰富性约束时，该样本才会被查询并加入训练集。
第四，最后利用基于实例差异的多标签学习算法，对剩余样本的标签集进行预测，从而得到所有样本的标签。

下载并做了经典数据集yahoo上Arts，Business 在ML-knn算法的AveragePrecision，Coverage，RankingLoss评价指标。重点学习了论文：基于多标签学习的旋转机械分级复合故障诊断，本论文核心算法HML-KNN算法本质是对ML-KNN的改进，主要包括三点：

1.分级处理，将原本并行的分类模型进行分级处理, 将第一级分类器得到的估计标签作为新特征放入第二级分类器中, 充分挖掘标签相关性
2.特征转化，将第一级的标签信息转化为标签特征. 放入第二级的标签特征并不是原始标签, 而是该样本序列的分位数, 将标签“-1”转化为下四分位数, 标签“1”转化上四分位数. 处理后的标签特征是绝对个性化的, 避免了原始标签造成的过拟合或欠拟合等问题
3.信息阶次升级，: HML-KNN算法是种考虑了全局标签信息的高阶算法, 第二级的标签与第一级的个标签都有联系. 多标签学习的内核思想就是挖掘标签间的关联性, 提升结果的可解释性. 高阶算法相比阶算法, 用到了更多的数据信息, 也给出了更多的启示.

四下一步计划（未完成）

数学学习：继续并大量进行机器学习中的数学公式的学习
论文阅读：多读机器学习与石油，机械，地球勘探等方面结合的论文，不能只做到看了算法，大概了解算法，要自己能代码实现算法，复刻实验，并通过大量阅读实现算法来照葫芦画瓢提出自己新的算法（重点在针对石油，机械等领域的数据集上），并做实验验证算法的优越性。
在目前已有的论文阅读量上我发现，偏向实用类型与机器学习算法结合的论文（类似石油类，机械类），很多都是大量小的算法的结合，比如在数据取样时采用一种已有的算法，或对算法进行一点改进，在数据预处理时采用另一种算法，在特征工程，模型建立，甚至模型评估时，可以将很多小的算法相结合，或对已有算法进行一点小改进，只要这样可以得到更好的结果，且有很好的实际意义，就可以作为一个新的算法并提出。这说起来容易，但需要大量算法和论文阅读的支持。所以还是需要很多很多的积累。是一个由量变到质变的过程。