多示例学习最早是由一位研究药物分子的时候提出。人们尝试从已知有效的药物分子数据预测未知的分子是否有效,其中存在的问题是,有效的药物分子有很多种同分异构体,学过化学的都知道,同分异构体最坑了,随着原子数目增多,同分异构体数量比指数级上升还要指数级……因此嘞,你懂的,就算分类之后,只知道分子表达式还是搞不清楚里面哪种结构的同分异构体是有效成分,就是说,标签是1的类里面也存在很多本应该标签是0的结构,只是没办法分出去了,当然标签是0的肯定都是0.
不知道解释清楚没有,反正多示例学习考虑的问题就是类别里面含有大量噪声,但是又难以去除的问题,现实中肯定有啊,因为现实远比你想象的复杂,相信很多相关研究的人深有体会,你根本不敢去跟现实对比啊,外行人根本不看你的公式啊,他们抓住你用的例子大肆讨论,理论技术瞬间被现实完爆有木有!!!
Jaume Amores 发表了一篇Multiple instance classification: Review, taxonomy and comparative study,很强大有木有,当然不是说他比Jordan,Hinton, Lafferty,Koller厉害,而是他给我们广大研究者节省了时间,大家最喜欢这种文章了。他对多示例学习的算法做了充分研究和实验,总结了一个分类法,将现有算法分类。