近日在设计一个算法,突然想起来孤立森林的异常分数公式还是一知半解,便重新剖析了下孤立森林的异常公式:
编辑切换为居中
添加图片注释,不超过 140 字(可选)
问题1:c( ψ )哪来的?孤立森林原始论文中作者给出了该公式的来源:借鉴了bst算法的平均路径计算。
编辑切换为居中
添加图片注释,不超过 140 字(可选)
问题2:为什么底数是2,而不是10,100?:从原始论文揣摩,因为是作者为了将异常范围作为0.5进行分隔,如果某个点接近1,大概是异常,接近0大概率是正常的,如果所有点都在0.5范围波动大概率没有异常点。
问题3:为什么c( ψ )作为分母?:将E(h(x))进行归一化。
问题4:为什么要将E(h(x))进行归一化?这样可以找到类似于0.5的分隔点,可以作为衡量标准,不然没有衡量标准。
参考:https://cs.nju.edu.cn/zhouzh/zhouzh.files/publication/icdm08b.pdf?q=isolation-forest