B题是一道评价预测类问题,涉及的特征变量很多,总体数据量适中。
一、题目
中国移动通信集团北京公司,让客户根据自身在网络覆盖与信号强度、 语音通话清晰度和语音通话稳定性三个方面的体验进行打分,同时还让客户根据语音通话的整体体验进行语音通话整体满意度的打分,并统计整理影响客户语音业务体验的因素,希望以此来分析客户语音业务满意度的主要影响因素,并提升客户语音业务满意度。同时,对于上网数据业务,中国移动北京公司让客户根据自身在网络覆盖与信号强度、手机上网速度、手机上网稳定性三个方面的体验进行打分,同时还让客户根据手机上网的整体体验进行手机上网整体满意度的打分,并统计整理影响客户上网体验1的因素,希望以此可以分析影响客户上网业务体验的主要因素,并提升客户的上网体验基于以上背景,请你们的团队根据附件给出的数据,通过数据分析与建模的方法帮助中国移动北京公司解决以下问题:
问题 1:根据附件 1 和附件 2,分别研究影响客户语音业务和上网业务满意度的主要因素,并给出各因素对客户打分影响程度的量化分析和结果。附件 1、2 中各字段的解释说明见附件 5。
问题 2:结合问题 1 的分析,对于客户语音业务和上网业务分别建立客户打分基于相关影响因素的数学模型,并据此对附件 3、4 中的客户打分进行预测研究,将预测结果分别填写在 result.xlsx 的 Sheet1“语音”Sheet2“上网”两个工作表中,并上传到竞赛平台,说明你们预测的合理性。
二、问题解析
问题1需要找出语音业务和上网业务满意度评分的主要影响因子,并且需要对各个影响因子进行深度的量化分析。这需要对给出的数据进行恰当的预处理和转换与编码,因为给出的数据是非常杂的,而且数值也多为离散变量。可以采用一些编码方式(如独热)将原变量转化,或者构造新变量。接着可选用相关性热力图、因子分析、线性回归、逻辑回归、随机森林、卡方检验等方法给各个特征因子对满意度的影响程度打分。
问题2需要基于问题1的结果,语音业务和上网业务的主要思路都是一样的,只是数据类型不同需要的数据处理方法有些区别。在得到各个影响因素及影响权重之后基于用户进行预测只需要建立预测方程即可,可以采用TOPSIS熵权法或者神经网络的方法。