6、Knowledge Discovery in Multi-label PhenotypeData

论文相关内容

本文中解决多标记问题的方法:

生物科学正在经历一场数据爆炸。需要新的数据分析方法来处理这些数据。我们利用KDD分析酵母突变表型生长实验的数据,预测新的基因功能。对数据的分析提出了一些挑战:多类标签,大量稀疏填充的类,需要学习一组准确的规则(不完整的分类),以及大量缺失的值。针对这些问题,我们开发了重采样策略并修改了算法C4.5。

Multi-Label Decision Tree

基于C4.5的决策树算法改编而来。
在这里插入图片描述
信息增益

在这里插入图片描述
单标签时的信息熵

在这里插入图片描述
修改后的适用于多标签的信息熵

在这里插入图片描述

未见实例的预测

总结

相关背景:生物科学正在经历可用数据的爆炸增长,需要新的数据处理方法。
问题是什么:生物科学中多标签数据的处理及很多类仅有少量的样例。
现有解决方案:BR等多标签算法。
作者的核心思想、创新点在哪里:扩展C4.5算法解决多标签,利用自助法重采样来解决相关类样例稀疏的问题。
通过什么样的实验进行验证:把3个生物科学方面的数据集整合为一,利用上步所说的方法对部分类(不需要全部)进行了实验,结果体现了其方法的有效性。
对我的启发:要学会善于联系不同学科之间的共同之处,旧物新用。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值