!!! 有需要的小伙伴可以通过文章末尾名片咨询我哦!!!
💕💕作者:优创学社
💕💕个人简介:本人在读博士研究生,拥有多年程序开发经验,辅导过上万人毕业设计,支持各类专业;如果需要论文、毕设辅导,程序定制可以联系作者
💕💕各类成品java系统 。javaweb,ssh,ssm,springboot等等项目框架,源码丰富,欢迎咨询交流。学习资料、程序开发、技术解答、代码讲解、源码部署,需要请看文末联系方式。
基于机器学习的客户打分预测与影响因素探究
摘 要
随着互联网与通信技术的发展,各个移动运营商,越来越重视客户的网络与 通话体验。根据客户满意度的打分情况, 为了帮助运行商研究影响打分的主要因 素,并对客户打分进行预测。本文计算特征之间的皮尔逊相关系数, 建立基于随 机森林模型,对影响客户打分的主要因素进行研究并量化分析。建立决策树、随 机森林、XGBoost 、SVM 模型对用户打分进行预测。
针对问题 1---研究影响客户语音业务和上网业务满意度的主要因素
首先进行查看数据缺失值、异常值, 其次进行数据处理,对不符合正态分布 的数据进行转换,计算皮尔逊相关系数,并绘制可视化相关系数热力图与相关系 数矩阵,确定影响客户语音通话整体满意度的的主要因素有:是否遇到网络问题、 语音中有杂音、听不清、断断续续、居民小区、有信号无法拨通、办公室。影响 客户手机上网整体满意度的的主要因素有:网络信号差/没有信号、上网过程中 网络时断时续或时快时慢、居民小区、手机上网速度慢、显示有信号上不了网。
针对问题 1-----给出各因素对客户打分影响程度的量化分析和结果
首先分别对附件 1-4 数据预处理,包括缺失值处理、异常值处理、删除与预 测目标无关列和重复列。其次是特征工程,采用的方法包含特征编码、特征降维、 特征交叉、特征标准化, 以便增强模型的表达能力,获取更好的数据特征。接下 来采用随机森林模型,通过依次替换目标值,分别对处理后的附件一、附件二进 行训练模型。计算出影响各个目标值的特征重要性, 从而给出各因素对用户打分 影响程度的量化分析和结果。确定影响语音通话整体满意度主要因素打分分别为 0.22、0.11、0.08、0.06、0.06,影响手机上网整体满意度主要因素打分分别为 0.16 、 0.14 、0.1 、0.1 、0.08。
针对问题 2--对附件 3、4 客户打分进行预测
首先分别对附件 1-4 进行数据预处理,包括缺失值处理、异常值处理、删除 指定列。其次是特征工程, 采用的方法包含特征编码、特征降维、特征交叉、特 征标准化。接下来采用常见的机器学习模型,包括随机森林、决策树、SVM 、 XGBoost 模型。通过依次替换目标值,分别对处理后的附件一、附件二训练模型, 并对训练的模型进行评估,包括查准率、查全率、混淆矩阵等评价指标。完成评估 后,采用贝叶斯调优挑选最优模型,对客户打分进行预测。选取最优的预测模型为 随机森林模型,对用户通话整体满意度进行评估,最终测试集准确率为 0.5871。 对用户上网整体满意度进行评估,最终测试集准确率为 0.5796。同理, 通过依次 将 label 值更换为附件 1、2 中的网络覆盖与信号强度、语音通话清晰度、语音通 话稳定性、手机上网速度、手机上网稳定性,进而训练模型、评估、调优。
关键词: 随机森林、决策树、SVM 、XGBoost、贝叶斯调优
目录
1.问题重述...................................................... 1
1.1 问题背景................................................ 1
1.2 问题提出................................................ 1
2.问题分析...................................................... 2
2.1 问题一分析.............................................. 2
2.2 问题二分析.............................................. 3
3.模型假设...................................................... 4
4.问题一模型的建立与求解........................................ 5
4.1 探究满意度的主要影响因素................................ 5
4.1.1 查看数据.......................................... 5
4.1.2 数据处理.......................................... 9
4.1.3 查看特征相关性................................... 10
4.2 各因素对客户打分影响程度的量化分析和结果............... 11
4.2.1 数据清洗.......................................... 11
4.2.2 特征工程......................................... 13
4.2.3 随机森林模型的训练............................... 14
4.2.4 查看特征重要性................................... 14
5.问题二模型的建立与求解....................................... 19
5.1 模型选择............................................... 19
5.1.1 决策树模型....................................... 19
5.1.2 随机森林模型..................................... 19
5.1.3XGBoost 模型 ..................................... 20
5.1.4SVM 模型......................................... 21
5.2 模型评估............................................... 21
5.3 基于贝叶斯框架的超参数调优............................. 23
5.4 实验结果.............................................. 28
6.模型评价.................................................... 29
6.1 模型的优点............................................. 29
6.2 模型的缺点及改进方向................................... 29
参考文献...................................................... 30
附录.......................................................... 31
随着通信技术的飞速发展,人们的生活质量得到了极大的改善,人们也越来 越离不开移动通信技术带来的便捷。随着网络不断的建设,网络覆盖率越来越高, 用户量也随之而急速增加,用户的需求也越来越高,传统的方法已经难以有效的 提升客户的满意度。
客户满意度是客户对运营产品服务的满意程度,反应了客户期望与实际感知 的产品服务之间的差异。如何提高客户满意度,是各运营商需要考虑的重要方向。 只有通过分析影响用户满意度的各种因素,并做出相应的解决措施,才能进一步 提升网络服务的质量,进而推动移动网络高质量可持续发展[1]。
因此,寻找出影响用户满意度的因素,建立完善的用户反馈体系,成为移动 网络持续健康发展所要解决的关键。中国移动通信集团公司通过让客户对网络覆 盖与信号强度、语言通话清晰度和语言通话稳定性三个方面的体验进行打分以及 语音通话整体满意度的打分来分析客户语音业务满意度的影响因素,并借此提升 客户语音业务满意度。同时, 还让客户根据自身在网络覆盖与信号强度、手机上 网速度、手机上网稳定性三个方面的体验进行打分以及手机上网整体满意度的打 分来分析影响客户上网业务体验的主要因素,并借此提升客户的上网体验。
基于上述研究背景,本文需要研究并解决以下问题:
问题 1:根据附件 1 和附件 2,分别研究影响客户语音业务和上网业务 满意 度的主要因素,并给出各因素对客户打分影响程度的量化分析和结果。附件 1、
2 中各字段的解释说明见附件 5。
问题 2:结合问题 1 的分析,对于客户语音业务和上网业务分别建立 客户 打分基于相关影响因素的数学模型,并据此对附件 3 、4 中的客户打分 进行预 测研究,将预测结果分别填写在 result.xlsx 的 Sheet1“语音”和 Sheet2“上网”两 个工作表中,并上传到竞赛平台,说明你们预测的合理性。
1. 研究影响客户语音业务和上网业务满意度的主要因素
问题一第 1 问为特征相关性分析问题,分别对附件 1 和附件 2 计算所有因素 与语音通话整体满意度和手机上网整体满意度的相关性。首先对数据集进行数据 预处理和数据可视化分析,查看异常值,去除异常值,查看数据分布,对分布进 行抓换等处理。预处理完毕后, 分别对处理后的附件一与附件二计算得出皮尔逊 相关系数矩阵,并依此分别绘制相关系数热力图,从而更清晰、直观的发现影响 客户语音业务和上网业务满意度的主要因素。

图 2-1 问题一第 1 问流程图
2. 给出各因素对客户打分影响程度的量化分析和结果
问题一第 2 问需要我们分别给出附件 1 、2 各因素对客户打分影响程度进行 量化分析,并进行结果展示。首先分别对附件 1-4 数据预处理,包括缺失值处理、 异常值处理、类别特征编码,label 采用数值编码。其次是特征工程,采用的方 法包含特征降维、特征交叉、特征标准化。接下来采用随机森林模型[2],通过依 次替换目标值,分别对处理后的附件 1、附件 2 进行训练模型。计算出影响各个 目标值的特征重要性,将得出的结果进行可视化展示,从而给出各因素对用户打 分影响程度的量化分析和结果。

图 2-2 问题一第 2 问流程图
问题二需要我们结合问题一的分析,对于客户语音业务和上网业务分别建立 客户打分基于相关影响因素的数学模型,并据此对附件 3、4 中的客户打分。这 是一个 10 分类问题,包括 1-10 的评分。首先分别对附件 1-4 进行数据预处理[3] , 包括缺失值处理、异常值处理、类别特征编码,label 采用数值编码。其次是特 征工程,采用的方法包含特征降维、特征交叉、特征标准化。接下来采用常见的 机器学习模型,包括随机森林、决策树、SVM 和 XGBoost 机器学习模型。通过 依次替换目标值,分别对处理后的附件一、附件二训练模型, 并对训练的模型进 行评估,包括查准率、查全率、混淆矩阵等评价指标。完成评估后,采用贝叶斯调 优法挑选出最优模型,对客户打分进行预测,将预测结果分别填写在 result.xlsx 的 Sheet1“语音”和 Sheet2“上网”两个工作表中。

图 2-3 问题二流程图
1. 假设影响客户打分的因素仅包含题目所给定特征信息;
2. 假设样本数据中缺失过多的变量信息对客户打分的预测产生的影响较小;
3. 假设客户满意度打分为真实主观判断,不受其它因素影响。
3. 假设异常值和缺失值处理后的数据有效可信,能够影响因素与客户打分 的关联性;
4. 假设样本数据中缺失较多的特征对有效预测用户打分所提供的必要信息 少
1.查看宏观数据
①语音业务用户满意度数据
首先,导入附件 1 语言业务用户满意度数据并读取数据的整体信息。原始数 据共有 55 种类别、3 种数据类型,其中 float 有 11 种,int 有 32 种,object 有 12 种, 数据集大小为 5433*55
图 4-1 语音业务用户满意度数据图
②上网业务用户满意度数据
首先,导入附件 2 上网业务用户满意度数据并读取数据的整体信息。原始数 据共有 125 种类别、4 种数据类型,其中 datetime 有 2 种,float 有 22 种,int 有 77 种,object 有 24 种,数据集大小为 7020*125
图 4-2 上网业务用户满意度数据图
2.查看缺失值
①语音业务用户满意度数据

图 4-3 语言业务用户满意度数据的缺失值图
从图中可以看出用户描述,用户描述.1,重定向次数,重定向驻留时长 ,是否关 怀用户,是否去过营业厅,缺失值较多,可以直接不要这个字段的列 是否 4G 网络 客户(本地剔除物联网),终端品牌,终端品牌类型,外省流量占比,是否 5G 网络客 户,是否实名登记用户,客户星级标识, 当月欠费金额,前第 3 个月欠费金额,缺失值 较少,在后续的数据清洗中可以选择填充或者删除该行缺失值。
②上网业务用户满意度数据

图 4-4 上网业务用户满意度数据的缺失值图
从图中可以看出场景备注数据、现象备注数据、 APP 大类备注、APP 小类视 频备注等 29 列数据存在缺失值,在后续的数据清洗中可以选择填充或者删除该 行缺失值。
3. 查看异常值
从图 4-5、图 4-6 可以清晰的看出附件 1、2 中存在的异常值,在后续数据处 理中会对各字段存在的异常值进行填充或删除处理。
①语音业务用户满意度数据

图 4-5 语言用户满意度数据的异常值图
②上网业务用户满意度数据

图 4-6 上网业务用户满意度数据的缺失值图
4. 查看分布
先分别对附件 1 、2 中的浮点型字段、整型字段进行查看,查看是否需要对 数据进行大量剔除或转换。如概率密度图所示, 训练集和预测集中的连续值字段 的分布都比较一致,不需要做额外的处理。
①语音业务用户满意度数据

图 4-7 附件 1 所有浮点型字段的分布

图 4-8 附件 1 部分整数型字段的分布
②上网业务用户满意度数据

图 4-9 附件 2 部分浮点型字段的分布

图 4-10 附件 2 部分整数型字段的分布

图 4-11 语音通话整体满意度分布
图中可以看出语音通话整体满意度在用户群体中的打分情况,用户打 10 分 的个数最多,用户个数约 3200。而打 2-5 分之间的用户个数极少,用户个数远小 于 500.依此看出多数用户对于在使用手机进行语音通话整体较为满意,少数用户 语音通话的体验感差。
图 4-12 手机上网整体满意度分布
从图中可以看出手机上网整体满意度在用户群体中的打分情况,用户打 10 分的个数最多,而打 5 分以下的个数较少。依此看出多数用户对于在使用手机进 行上网整体较为满意,少数用户手机上网的体验感差。
1.对数据进行正态转换。我们采用 Johnson SU 函数对附件 1、附件 2 中“重 定向次数”列进行拟合,并绘制 quantile-auantile plot 图检验该列数据是否符合正 态分布效果如下图:
图 4-13 附件 1 重定向次数拟合图
图 4-14 附件 2 重定向次数拟合图
我们发现附件 1 中“重定向次数”列数据分布并不符合正态分布,是右偏数 据,说明存在过大的极端值,回归中对数据分布较为敏感。, 因此需要对数据中 的过大的价格值进行处理,需要进行数据转换成近似正态分布。我们通过选择利 用 Johnson SU 函数对数据进行转换。转换后的数据如下图:
图 4-15 附件 1 数据转换图
更多项目:
另有10000+份项目源码,项目有java(包含springboot,ssm,jsp等),小程序,python,php,net等语言项目。项目均包含完整前后端源码,可正常运行!
!!! 有需要的小伙伴可以点击下方链接咨询我哦!!!