【项目实战】Python基于孤立森林算法(IsolationForest)实现数据异常值检测项目实战

376 篇文章 275 订阅

说明:这是一个机器学习实战项目(附带数据+代码+文档+代码讲解),如需数据+代码+文档+代码讲解可以直接到文章最后获取。

  

1.项目背景

       孤立森林是基于Ensemble的快速异常检测方法,具有线性时间复杂度和高精准度,是符合大数据处理要求的state-of-the-art算法。孤立森林算法适用于连续数据的异常检测,将异常定义为“容易被孤立的离群点”,可以理解为分布稀疏且离密度高的群体较远的点。用统计学来解释,在数据空间里面,分布稀疏的区域表示数据发生在此区域的概率很低,因而可以认为落在这些区域里的数据是异常的。

    孤立森林最早来源于2008年发表的一篇论文《Isolation Forest》,该论文由莫纳什大学的 Fei Tony Liu、Kai Ming Ting 和南京大学的周志华合作完成的。孤立森林算法的思想是通过不断地分割数据集,从而把异常点给孤立出来。分割数据集的依据是反复随机选取样本特征,不断地分割数据集直到每个样本点都是孤立的。在此情况下,异常点因为具有不同或者特殊的特征值,因此异常点的路径通常很短,也会比较早被分离出来。

2.数据获取

本次建模数据来源于网络(本项目撰写人整理而成),数据项统计如下:

数据组成:训练数据1460条、81个特征(38个数值特征和43个分类特征)

 数据详情如下(部分展示):

3.数据预处理

3.1 用Pandas工具查看数据形状

使用Pandas工具的shape ()方法查看数据的形状:

关键代码:

3.2缺失值数据填充

使用Pandas工具的fillna ()方法用0填充缺失的数据,关键代码:

 

3.3生产数据集的特征列表

使用Pandas工具的columns属性来生成数据集的特征列表:

关键代码:

4.异常数据检测

使用sklearn工具中的IsolationForest(算法)来进行数据集中异常数据的检测。

4.1建模

模型参数如下:

4.2拟合与预测

应用fit()方法进行拟合,应用predict()进行预测,预测值分为1和-1,1为正常值,-1为异常值,那么在后续的深度神经网络模型应用中将会丢弃掉异常值的数据。检测结果如下:

 

关键代码如下:

4.3正常值结果展示

使用Pandas工具的head()方法来展示正常值数据的前10行:

 

关键代码如下:

5.特征工程

5.1数据归一化

使用sklearn工具MinMaxScaler()方法来进行数据的无量纲化,即数据的归一化,归一化后的数据如下图:

 

关键代码:

5.2 建立特征数据和标签数据

SalePrice为标签数据,除SalePrice之外的为特征数据。关键代码如下:

 

5.3数据集拆分

训练集拆分,分为训练集和验证集,70%训练集和30%验证集。关键代码如下:

 

6.构建深度神经网络模型

主要使用Keras工具的Sequential()方法构建序惯模型,然后添加Dense层,用于目标回归。

 6.1建模

 关键代码如下:

7.模型评估

7.1评估指标及结

评估指标主要包括均方误差等等。

 从上表可以看出,损失值较小,深度神经网络模型效果较好。

关键代码如下:

 

7.3 真实值与预测值比对图

 

从上图可以看到,真实值和预测值波动基本一致,说明除去异常值之后的深度神经网络模型效果较好。

8.结论与展望

综上所述,使用了孤立森林算法对房价数据进行异常检测。实验结果表明,该算法可以有效检测出房价数据中存在的异常数据。然后把异常数据去除,来构建深度神经网络模型,模型效果较好。可用于日常生活中进行建模预测,以提高生产价值和效能。

测试集数据预测结果如下:

 

warnings.filterwarnings('ignore')

# 读取数据
data_train = pd.read_excel('train.xlsx')
print('训练数据所有特征的形状:', data_train.shape)

# 去除类型为object的特征
data_train = data_train.select_dtypes(exclude=['object'])





data_train.fillna(0, inplace=True)

# 读取数据
data_test = pd.read_excel('test.xlsx')
data_test = data_test.select_dtypes(exclude=['object'])
ID = data_test.Id
data_test.fillna(0, inplace=True)
data_test.drop('Id', axis=1, inplace=True)
  • 8
    点赞
  • 95
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

胖哥真不错

您的鼓励,将是我最大的坚持!

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值