大数据挖掘建模案例分享：利用BP神经网络算法进行用户行为分析（四）

泰迪智能科技

于 2022-07-07 15:59:48 发布

阅读量1.2k

点赞数 1

分类专栏：大数据项目实战文章标签：大数据

本文链接：https://blog.csdn.net/tipdm0526/article/details/125660354

版权

大数据同时被 2 个专栏收录

180 篇文章 13 订阅

订阅专栏

项目实战

27 篇文章 18 订阅

订阅专栏

泰迪智能科技（数据挖掘平台：TipDM数据挖掘平台）最新推出的数据挖掘实战专栏

专栏将数据挖掘理论与项目案例实践相结合，可以让大家获得真实的数据挖掘学习与实践环境，更快、更好的学习数据挖掘知识与积累职业经验

专栏中每四篇文章为一个完整的数据挖掘案例。案例介绍顺序为：先由数据案例背景提出挖掘目标，再阐述分析方法与过程，最后完成模型构建，在介绍建模过程中同时穿插操作训练，把相关的知识点嵌入相应的操作过程中。

为方便读者轻松地获取一个真实的实验环境，本专栏使用大家熟知的Python语言对样本数据进行处理以进行挖掘建模。
————————————————

模型构建

根据建模样本数据建立BP神经网络模型识别洗浴事件。由于洗浴事件与普通用水事件在特征上存在不同，而且这些不同的特征在特征上被体现出来。于是，根据用户提供的用水日志，将其中洗浴事件的数据状态记录作为训练样本训练BP神经网络。然后根据训练好的网络来检验新采集到的数据，具体过程如图 1所示。

图1 BP神经模型识别洗浴事件

在训练神经网络的时候，选取了“候选洗浴事件”的11个属性作为网络的输入，分别为：洗浴时间点，总用水时长，总停顿时长，平均停顿时长，停顿次数，用水时长，用水时长/总用水时长，总用水量，平均水流量，水流量波动和停顿时长波动。训练BP网络时给定的输出（教师信号）为1与0，其中1代表该次事件为洗浴事件，0表示该次事件不是洗浴事件。是否为洗浴事件的标签是根据热水器的用水记录日志得到。

构建神经网络模型需要注意数据本身属性之间的存在量级差异，因此需要进行标准化，消除量级差异。另外，为了便于后续应用模型，可以用joblib.dump函数保存模型，如代码清单1所示。

代码清单1 构建神经网络模型

import pandas as pdfrom sklearn.preprocessing import StandardScalerfrom sklearn.neural_network import MLPClassifierfrom sklearn.externals import joblib
# 读取数据Xtrain = pd.read_excel('../tmp/sj_final.xlsx')ytrain = pd.read_excel('../data/water_heater_log.xlsx')test = pd.read_excel('../data/test_data.xlsx')# 训练集测试集区分。x_train, x_test, y_train, y_test = Xtrain.iloc[:,5:],test.iloc[:,4:-1],\                                   ytrain.iloc[:,-1],test.iloc[:,-1]# 标准化stdScaler = StandardScaler().fit(x_train)x_stdtrain = stdScaler.transform(x_train)x_stdtest = stdScaler.transform(x_test)# 建立模型bpnn = MLPClassifier(hidden_layer_sizes=(17,10), max_iter=200, solver='lbfgs',random_state=50)bpnn.fit(x_stdtrain, y_train)# 保存模型joblib.dump(bpnn,'water_heater_nnet.m')print('构建的模型为：\n',bpnn)

在训练BP神经网络时，对神经网络的参数进行了寻优，发现含2个隐层的神经网络训练效果较好，其中2个隐层的隐节点数分别为17和10时训练的效果较好。

根据样本，得到训练好的神经网络后，就可以用来识别对应的用户家的洗浴事件，其中待检测的样本的11个属性作为输入，输出层输出一个值在[-1，1]范围内，如果该值小于0，则该事件不是洗浴事件，如果该值大于0，则该事件是洗浴事件。某热水器用户记录了两周的热水器用水日志，将前一周的数据作为训练数据，后一周的数据作为测试数据，代入上述模型进行测试。

模型检验

结合模型评价相关的知识，使用精确率（precision）、召回率（recall）和f1值来做模型评价的效果先顾地较为客观、准确。同时结合ROC曲线，可以进一步更加直观地评价模型的效果，如代码清单 2所示。

代码清单2 神经网络模型评价

# 模型评价from sklearn.metrics import classification_reportfrom sklearn.metrics import roc_curvefrom sklearn.externals import joblibimport matplotlib.pyplot as plt
bpnn = joblib.load('water_heater_nnet.m')  # 加载模型y_pred = bpnn.predict(x_stdtest)  # 返回预测结果print('神经网络预测结果评价报告：\n',classification_report(y_test,y_pred))# 绘制roc曲线图plt.rcParams['font.sans-serif'] = 'SimHei'  # 显示中文plt.rcParams['axes.unicode_minus'] = False  # 显示负号fpr, tpr, thresholds = roc_curve(y_pred,y_test)  # 求出TPR和FPRplt.figure(figsize=(6,4))  # 创建画布plt.plot(fpr,tpr)  # 绘制曲线plt.title('用户用水事件识别ROC曲线')  # 标题plt.xlabel('FPR')  # x轴标签plt.ylabel('TPR')  # y轴标签plt.savefig('用户用水事件识别ROC曲线.png')  # 保存图片plt.show()  # 显示图形