Similarity Forests
相似森林
Saket Sathe IBM T. J. Watson Research Center YorktownHeights, NY 10598
Charu C. Aggarwal IBM T. J. Watson Research Center Yorktown Heights, NY 10598
KDD’17, August 13–17,2017, Halifax, NS, Canada
本文讲了什么问题?
随机森林因其精确性和效率性,已经成为数据挖掘中最成功的分类算法之一;但是它的运用主要局限于多维数据中。本文提出了一种扩展随机森林的方法---随机森林,只要数据对象之间有相似之处就可以在数据对象之间进行计算。例如在很多应用数据中,像时间系列数据、离散序列或图中,高维表达也许是不存在的;但相似函数计算的问题已经得到很好的研究,并且有可能计算数据对象之间的相似性。但在很多领域中,计算相似性耗费耗时;因此本文也提出了将对象之间的距离转化为相似性的想法。
解决问题方法
SIMFOREST算法
假设对象 O1 . ..On 可以嵌入一些多维空间作为点X1 . . .Xn.,SimForest方法在数据对象中随机找到一对来确定一个方向,再把其他数据对象映射到这个方向上,通过方向上的相似分割点划分数据对象。如下图所示:
1.如上图所示,选择了Xi,Xj来确定一个方向,而其他点在这个方向上的投影如下计算:例如数据对象Ok在方向上的投影:
或
S代表相似度
2.分割点a的选择标准是它最小化子节点的加权基尼指数:
一个节点N的基尼指数为:
当N被分为两个子节点N1和N2,那么加权基尼指数为:
数据对象Ok归于决策树中的哪条路径要看是否: