孤立森林阅读

最新推荐文章于 2024-12-19 17:38:48 发布

Mark_Aussie

最新推荐文章于 2024-12-19 17:38:48 发布

阅读量1.3k

点赞数

分类专栏：机器学习文章标签：机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/MarkAustralia/article/details/120181899

版权

机器学习专栏收录该内容

47 篇文章

订阅专栏

原文：Isolation Forest

对含有大量不相关属性的高维问题，孤立森林可使用新增的属性快速获得检测结果；而基于距离方法的检测效果不佳。即使在训练数据集没有异常数据，孤立森林依旧可良好工作。孤立森林是高效准确的异常检测器，特别是对大的数据集

iForest：对给定数据集，构建一个全集树，异常样本就是有最短路径的样本。

有两个参数，树的个数和采样大小。

孤立树孤立的特点使其能构建不完全的模型并利用其它模型不适用的欠采样。由于大部分孤立树孤立了正常点，异常检测就不必要了；小样本能产生更好的孤立树，淹没和遮挡效果都被减少了。

孤立森林不使用距离或密度检测取测试异常。这样减少了大部分的距离计算的花销。

孤立森林是线性时间复杂度，内存需求很低。

孤立森林有能力提高处理大量数据和高维度问题(属性不相关)

本文中孤立指从剩余的样本中区分出一个样本。由于异常是少量且不同的，因此异常更易于孤立。

为证明在随机划分情况下，异常点更易被孤立，下图中a，b 随机划分正常点和异常点可视化。

通过观察，正常点xi 更多的划分才能孤立，而异常点正相反，较少的划分即可孤立。

划分是随机选择属性，随机在选择的属性中最大和最小值中划分的。

T 为孤立树的节点，或是没有子节点的外部节点，或是有两个子节点的内部节点，同时还有一个测试，由属性 q 和划分值 p 组成。根据属性是否小于 q，将数据划入左右两个节点。

一个孤立树是二叉树，每个节点有0个或2个子节点。

假设每个样本都是不同的，最终每个样本都会被孤立在一个外部节点，此时，外部节点数量为 n ，内部几点数量为 n - 1；一颗孤立树的总节点数量为 2 * n + 1；内存需求是有限的，仅随着 n 线性增长。

异常检测任务提供了一个排序以反映异常的级别。一种方法是根据路径长度或异常分数排序数据；排在列表顶部的是异常点。

路径长度：点 x 在孤立树中从根节点到外部节点间的边数量。

一个异常分数是任何异常检测方法都需要的。

从 h(x) 中获得这样的分数的难点在于当孤立树最大可能高度按照 n 的顺序增长，而平均高度按照 log(n) 的顺序增长。任何通过上述期限正则化的 h(x) 都没有边界或不可直接比较。

因为孤立树有一个等价于二分搜索树结构或BST，均值h(x)对外部节点终端的估计等同于BST中的未成功搜索。

借用BST分析评估孤立树的平均路径长度。考虑到有一个 n 个样本的数据集。

BST中的未成功搜索平均路径长度：

H(i) 是调和数，可使用ln(i) + 0.5772156649（欧拉常数）估算。

给定 n 个样本，c(n) 是h(x) 的均值，使用 c(n) 标准化 h(x)。

一个样本 x 的异常分数：；

n 个样本中的一个异常分数可用公式计算，E(h(x)) 是h(x) 的均值，h(x) 来自孤立树。

s对h(x)是单调的，

当E(h(x))趋于c(n)时， s趋近于0.5；

当E(h(x))趋于 0 时， s趋近于1；

当E(h(x))趋于你- 1时， s趋近于0。

路径的期望值与异常分数间的关系。

因为孤立森林不需要孤立所有正常样本，孤立森林可以使用部分模型就很好的工作而不必孤立所有正产点，使用少量样本训练。

大的样本量会减少孤立森林孤立异常样本的能力，因为正常样本会干扰孤立过程，降低了清晰孤立异常点的能力。

欠采样对孤立森林是和好的使用环境，本文中欠采样是随机不放回的抽取。

Swamping是指将正常样本错标为异常；

Masking是存在过多异常导致遮盖了异常的自身。当异常簇很大很密集时，会增加孤立每个异常点的划分次数。

Swamping和Masking都是数据过多导致的结果。

图 a 是异常点较多且密度集中的情况；图 b 是采样样本后异常点稀疏的情况。

使用孤立森林做异常检测需要两步。

一是用下采样数据集构建孤立树；二是给出样本的异常分数。

在训练阶段，孤立树是通过反复划分给定的训练集直到样本都被孤立或带到了特定的树的高度。树高 l 的限制是自动生成的，根据欠采样的数据大小 n 确定：l = log2(n)。这个值近似于树的平均高度，模型只对短于平均路径的数据即异常数据感兴趣。

孤立森林算法有两个参数，下采样大小 n 和森林中的树的数量。

根据经验，设置采样数量为 256，这样通常能提供足够的信息检测异常。

设置 t = 100 作为森林中树的数量的默认值。

在评估阶段，异常点分数是从样本路径长度期望获得的；期望 E(h(x)) 是通过样本在森林中经过的每颗树获得的。

使用路径长度函数，单独路径长度 h(x) 通过计数从孤独树根节点到最终节点的边的数量，最终返回时如果Size>1, 需要再加上一个调整数，c(Size)。

当每个树的h(x) 汇聚起来，可通过上面的公式计算异常值分数。

将异常分数降序排列，找到前 m 个点就是异常点。

本文提出一种完全不同的模型，致力于使异常孤立而不是正常样本的概述。

异常样本少且不同的特性，孤立树可在更接近根节点处是异常点孤立；这个特性使孤立森林可不构建完全的模型，使用训练数据的一小部分就可有效构建模型。

实验评估显示孤立森林比近似线性时间复杂度的，基于距离的方法，如ORCA、LOF、RF，在AUC和执行时间上更有优势，特别是在大数据集上。此外，孤立森林可在小样本上快速汇集，能更高效的检测异常。

对含有大量不相关属性的高维问题，孤立森林可使用新增的属性快速获得检测结果；而基于距离方法的检测效果不佳而且更好是。

即使在训练数据集没有异常数据，孤立森林依旧可良好工作。孤立森林是高效准确的异常检测器，特别是对大的数据集。

博客等级

码龄9年

247
原创

636
点赞

1806
收藏

342
粉丝

关注

私信

热门文章

分类专栏

nlp 61篇
排序算法 9篇
大模型 4篇
Python 60篇
AIOps 32篇
机器学习 47篇
C语言
JDK翻译 5篇
数据库 4篇

最新评论

几种排序算法总结（六）--快速排序
CSDN-Ada助手: 哇, 你的文章质量真不错，值得学习！不过这么高质量的文章, 还值得进一步提升, 以下的改进点你可以参考下: (1)提升标题与正文的相关性；(2)起一个更符合文章内容的标题；(3)增加条理清晰的目录。
whisper 语音识别的安装与使用
CSDN-Ada助手: 恭喜你这篇博客进入【CSDN每天值得看】榜单，全部的排名请看 https://bbs.csdn.net/topics/619664161。
Celery使用小结
北风之神c: 总结的很全面，写得赞，博主用心了。 celery对目录层级文件名称格式要求太高，只适合规划新的项目，对不规则文件夹套用难度高。所以新手使用celery很仔细的建立文件夹名字、文件夹层级、python文件名字。所以网上的celery博客教程虽然很多，但是并不能学会使用，因为要运行起来需要以下6个方面都掌握好，博客文字很难表达清楚或者没有写全面以下6个方面。 celery消费任务不执行或者报错NotRegistered，与很多方面有关系，如果要别人排错，至少要发以下6方面的截图，因为与一下6点关系很大。 1)整个项目目录结构, 2）@task入参 ,3）celery的配置，4）celery的配置 include ,5）cmd命令行启动参数 --queues= 的值,6）用户在启动cmd命令行时候，用户所在的文件夹。在不规范的文件夹路径下，使用celery难度很高，一般教程都没教。 [项目文件夹目录格式不规范下的celery使用演示](https://github.com/ydf0509/celery_demo) 。此国产分布式函数调度框架 funboost python万能通用函数加速器 https://funboost.readthedocs.io/zh-cn/latest/articles/c1.html ，从用法调用难度，用户所需代码量，超高并发性能，qps控频精确程度，支持的中间件类型，任务控制方式，稳定程度等20个方面全方位超过celery。发布性能提高1000%，消费性能提高2000%。 python万能分布式函数调度框架funboost支持python所有类型的并发模式和一切知名消息队列中间件，python函数加速器，只需要一行代码调度任意函数，框架包罗万象,万能编程功能宝典，一统编程思维，与业务不绑定，适用范围广。 pip install funboost
Python Logging 的使用
北风之神c: 总结的很全面，写得赞，博主用心了。此国产日志 https://nb-log-doc.readthedocs.io/zh-cn/latest/articles/c1.html 使用原生 loggng封装，兼容性和替换性100%,只需要一行代码大幅简化logging的使用。 1、日志能根据级别能够自动变彩色。 1 2、print自动变彩色。 3、日志和print在pycahrm控制台的输出都自动可以点击跳转到文件和行号。 4、多进程日志切割安全，文件日志写入性能高。 5、入参简单，能一键自动记录到多种地方。 6、 nb_log 兼容包含loguru色彩模式,loguru只是nb_log的子集之一. 相比 loguru 有10胜。 pip install nb_log 。
python 常用方法记录
CSDN-Ada助手: 哇, 你的文章质量真不错，值得学习！不过这么高质量的文章, 还值得进一步提升, 以下的改进点你可以参考下: (1)提升标题与正文的相关性。

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。