python中孤立森林算法实例

python中孤立森林算法实例

使用python中sklearn库自带的IsolationForest构建孤立森林,并训练预测数据,同时使用plt画图展示

import numpy as np
import matplotlib.pyplot as plt
from sklearn.ensemble import IsolationForest
import csv

#读入数据
def loadData(filename):
    data = open(filename,'r',encoding='utf-8')
    reader = csv.reader(data)
    header = next(reader)
    dataset = []
    price = []
    amount = []
    for row in reader:
        dataset.append([float(row[3]),float(row[4])])
        price.append(float(row[3]))
        amount.append(float(row[4]))

    return dataset,price,amount

def iForest(dataset,price,amount):
    clf = IsolationForest()
    ans = clf.fit_predict(dataset)

    price_abnormal = []
    amount_abnormal = []
    price_normal = []
    amount_normal = []

	#将运算得到的异常数据记录保存
    for d in range(0,len(ans)):
        if ans[d] == -1:
            price_abnormal.append(dataset[d][0])
            amount_abnormal.append(dataset[d][1])
        else:
            price_normal.append(dataset[d][0])
            amount_normal.append(dataset[d][1])


    print(price_normal)
    
    #画图展示
    plt.title("IsolationForest")

	#正常数据点
    b1 = plt.scatter(price_normal, amount_normal, c='white',
                     s=20, edgecolor='k')
	#异常数据点
    c = plt.scatter(price_abnormal, amount_abnormal, c='red',
                    s=20, edgecolor='k')
    plt.axis('tight')
    #x轴、y轴的坐标范围
    plt.xlim((0,3000))
    plt.ylim(0,3500 )
    plt.xlabel('Price')
    plt.ylabel('Amount')
    plt.legend([b1,c],['normal points', 'abnormal points'],
           loc="upper left")
    plt.show()

filename = 'lv3测试集.csv'
dataset,price,amount=loadData(filename)
iForest(dataset,price,amount)

效果如图:
在这里插入图片描述

  • 2
    点赞
  • 26
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 9
    评论
Python孤立森林算法是一种基于随机森林的异常检测算法,主要用于发现异常数据点。它的核心思想是将正常数据点固定在一个较短的高度内,而异常数据点则会更容易被分离出来形成一个较高的孤立分支。 首先,孤立森林算法会随机选取一个特征和一个切分点将数据集划分为左右两个子集。接下来,它会递归地将子集分割成更小的子集,直到某个停止条件被满足(如达到设定的树深度或子集只剩下一个数据点)。这样,就构建出了多个二叉树。 在构建过程孤立森林算法会记录住数据点在每个二叉树的平均路径长度。这个路径长度代表数据点在树被隔离出来的难度。最后,使用路径长度与一个阈值进行比较,就可以得到每个数据点的异常评分。如果路径长度小于阈值,说明数据点是正常的;如果路径长度大于阈值,说明它是异常的。 相比于其他异常检测算法孤立森林算法有以下几个优点: 1. 孤立森林算法的时间复杂度较低,因为通过随机选取特征和切分点,它可以快速构建出多棵二叉树。 2. 孤立森林算法在高维数据集上的效果比较好,因为它对数据的维度不敏感。 3. 孤立森林算法不需要假设数据服从特定的分布,对于各种类型的数据都适用。 总结来说,Python孤立森林算法是一种高效的异常检测算法,可以用于发现数据集的异常数据点。它不仅适用于高维数据集,而且对于各种数据类型都具有很好的适应性。希望这个回答对你有帮助。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 9
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Yozu_Roo

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值