论文相关内容
本文中解决多标记问题的方法:
生物科学正在经历一场数据爆炸。需要新的数据分析方法来处理这些数据。我们利用KDD分析酵母突变表型生长实验的数据,预测新的基因功能。对数据的分析提出了一些挑战:多类标签,大量稀疏填充的类,需要学习一组准确的规则(不完整的分类),以及大量缺失的值。针对这些问题,我们开发了重采样策略并修改了算法C4.5。
Multi-Label Decision Tree
基于C4.5的决策树算法改编而来。
信息增益
单标签时的信息熵
修改后的适用于多标签的信息熵
未见实例的预测
总结
相关背景:生物科学正在经历可用数据的爆炸增长,需要新的数据处理方法。
问题是什么:生物科学中多标签数据的处理及很多类仅有少量的样例。
现有解决方案:BR等多标签算法。
作者的核心思想、创新点在哪里:扩展C4.5算法解决多标签,利用自助法重采样来解决相关类样例稀疏的问题。
通过什么样的实验进行验证:把3个生物科学方面的数据集整合为一,利用上步所说的方法对部分类(不需要全部)进行了实验,结果体现了其方法的有效性。
对我的启发:要学会善于联系不同学科之间的共同之处,旧物新用。