源码+完整报告+数据集链接如下:
链接:https://pan.baidu.com/s/13e4Ng1-OL9ueaeKUQ52_1w?pwd=mi5q
提取码:mi5q
csdn上懒得排版就只放一点点报告
这个是帮朋友做的,因为个人时间有限,有些部分有点粗糙,敬请谅解。
基于机器学习的移动用户体验影响因素的研究
摘要
在大数据飞速发展的今天,海量的信息当中蕴藏了无限的价值。对于各大运营商来说看客户满意度的表现可以作为市场运营策略的重要参考。我们找到了语音业务用户满意度数据。本文旨在基于中国移动通信集团北京公司提供的大量客户体验调查的数据,探索影响用户对语音业务满意度的主要因素,并构建基于各种因素预测用户对业务整体满意度的预测模型,为推动客户赋能运营决策,移动网络的高质量可持续发展做一份贡献。
第一步进行特征工程:对部分特征根据其特点分别进行one-hot编码、分箱处理后标签编码,并且删除缺失值太多与信息重复的特征。第二步进行数据的统计与可视化,根据图像观察数据分布,发现整体满意度评分出现数据分布不均衡的现象。第三步进行相关性分析,计算各因素与各项打分间的斯皮尔曼相关系数及其显著性,并取相关系数大于0.1的特征作为主要影响因素。第四步对主要影响因素与各项打分进行多元线性回归分析,并计算MSE。第五步分别使用决策树、随机森林、XGBOOST的机器学习算法,按8:2划分训练集与测试集,通过分类预测的准确率与召回率评价模型,画出混淆矩阵,得到各模型的算法参数,最终得到在语音业务十分类任务的测试集上的精确率为0.5436。
关键词:特征工程、机器学习、随机森林、XGBOOST、相关性分析、大数据处理
目录
一、文章概述
1.1 研究背景
随着我国5G技术的逐渐成熟,网络不断的建设,网络覆盖越来越完善,移动通信在人们生活中的地位愈加重要,因此人们也越来越离不开移动通信技术带来的各种便捷。但是移动通信技术同时也会带来一些问题,比如使用时卡顿;没有信号;语音通话不清晰等。为了逐渐改善用户对运营商产品服务的满意程度,建立数字经济的管理理念和技术手段已经成为了中国的三大运营商的首要目标。除此之外,如何让让客户体验赋能商业决策,让商业决策真正服务客户也是运营商面临的一大难题。为了实现移动通信技术的高效可持续性发展,我们需要建立起一个全方位系统性测评体系,来保证客户的使用体验,真正做到”为民服务”。
因此,为了建立准确的满意度评测的数学模型,我们借助工具处理用户问卷中复杂多样的非线性数据和强相关性的特征,由此得到了相对准确的量化分析和结果,最终可以预测用户满意度。
1.2 研究问题
鉴于以上背景,本文研究问题如下:
研究影响客户语音业务的主要因素、对附件中的额数据进行清洗,分类;选择合适的模型,训练得到的模型并检验准确度,深入探究业务满意度与各个特征的关系,最终得到各因素对客户打分影响程度的量化分析和结果。
1.3 数据集概述
原始数据集由5433名用户进行打分。其中用户综合满意度由53个特征组成,其中有三个字段为主要字段,分别为:网络覆盖与信号强度,语音通话清晰程度,语音通话稳定性。其余50个字段为特殊场景下的得分信息
二、特征工程
2.1 代码环境
因为个人电脑运算能力有限、因此我在autodl平台上租赁了服务器来完成本次项目的代码编写和实验测试。
租用服务器的环境如图2.1,为:
PyTorch 1.8.1 Python 3.8(ubuntu18.04)
GPU Cuda 11.1 RTX 2080 Ti(11GB) * 1
CPU12 vCPU Intel(R) Xeon(R) Platinum 8255C CPU @ 2.50GHz
内存40GB,系统盘:25 GB