基于机器学习的移动用户体验影响因素的研究(python jupyter notebook数据分析大作业)(源码+数据集+报告)

源码+完整报告+数据集链接如下:

链接:https://pan.baidu.com/s/13e4Ng1-OL9ueaeKUQ52_1w?pwd=mi5q 
提取码:mi5q 

 csdn上懒得排版就只放一点点报告

这个是帮朋友做的,因为个人时间有限,有些部分有点粗糙,敬请谅解。

 

基于机器学习的移动用户体验影响因素的研究

摘要

    在大数据飞速发展的今天,海量的信息当中蕴藏了无限的价值。对于各大运营商来说看客户满意度的表现可以作为市场运营策略的重要参考。我们找到了语音业务用户满意度数据。本文旨在基于中国移动通信集团北京公司提供的大量客户体验调查的数据,探索影响用户对语音业务满意度的主要因素,并构建基于各种因素预测用户对业务整体满意度的预测模型,为推动客户赋能运营决策,移动网络的高质量可持续发展做一份贡献。

    第一步进行特征工程:对部分特征根据其特点分别进行one-hot编码分箱处理后标签编码,并且删除缺失值太多与信息重复的特征。第二步进行数据的统计与可视化,根据图像观察数据分布,发现整体满意度评分出现数据分布不均衡的现象。第三步进行相关性分析,计算各因素与各项打分间的斯皮尔曼相关系数及其显著性,并取相关系数大于0.1的特征作为主要影响因素。第四步对主要影响因素与各项打分进行多元线性回归分析,并计算MSE。第五步分别使用决策树、随机森林、XGBOOST的机器学习算法,按8:2划分训练集与测试集,通过分类预测的准确率与召回率评价模型,画出混淆矩阵,得到各模型的算法参数,最终得到在语音业务十分类任务的测试集上的精确率为0.5436。

关键词:特征工程、机器学习、随机森林、XGBOOST、相关性分析、大数据处理

目录

一、文章概述. 4

1.1 研究背景. 4

1.2 研究问题. 4

1.3 数据集概述. 4

二、特征工程. 4

2.1 代码环境. 4

2.2 数据清洗. 5

2.3 数据分布可视化. 7

2.4 相关性分析. 9

三、回归预测. 11

四、基于机器学习的十分类任务建模. 13

4.1 决策树. 13

4.2 随机森林. 16

4.3 XGBOOST 19

4.4 模型对比. 22

五、总结. 22

六、参考文献. 22

一、文章概述

1.1 研究背景

    随着我国5G技术的逐渐成熟,网络不断的建设,网络覆盖越来越完善,移动通信在人们生活中的地位愈加重要,因此人们也越来越离不开移动通信技术带来的各种便捷。但是移动通信技术同时也会带来一些问题,比如使用时卡顿;没有信号;语音通话不清晰等。为了逐渐改善用户对运营商产品服务的满意程度,建立数字经济的管理理念和技术手段已经成为了中国的三大运营商的首要目标。除此之外,如何让让客户体验赋能商业决策,让商业决策真正服务客户也是运营商面临的一大难题。为了实现移动通信技术的高效可持续性发展,我们需要建立起一个全方位系统性测评体系,来保证客户的使用体验,真正做到”为民服务”。

    因此,为了建立准确的满意度评测的数学模型,我们借助工具处理用户问卷中复杂多样的非线性数据和强相关性的特征,由此得到了相对准确的量化分析和结果,最终可以预测用户满意度。

1.2 研究问题

鉴于以上背景,本文研究问题如下:

研究影响客户语音业务的主要因素、对附件中的额数据进行清洗,分类;选择合适的模型,训练得到的模型并检验准确度,深入探究业务满意度与各个特征的关系,最终得到各因素对客户打分影响程度的量化分析和结果。

1.3 数据集概述

原始数据集由5433名用户进行打分。其中用户综合满意度由53个特征组成,其中有三个字段为主要字段,分别为:网络覆盖与信号强度,语音通话清晰程度,语音通话稳定性。其余50个字段为特殊场景下的得分信息

二、特征工程

2.1 代码环境

       因为个人电脑运算能力有限、因此我在autodl平台上租赁了服务器来完成本次项目的代码编写和实验测试。

       租用服务器的环境如图2.1,为:

       PyTorch  1.8.1  Python  3.8(ubuntu18.04)  

GPU Cuda  11.1  RTX 2080 Ti(11GB) * 1

CPU12 vCPU Intel(R) Xeon(R) Platinum 8255C CPU @ 2.50GHz

       内存40GB,系统盘:25 GB

  • 3
    点赞
  • 11
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
Jupyter 数据分析大作业通常需要以下步骤: 1. 数据收集和导入:从外部数据源(如 CSV、Excel 或数据库)获取数据,并将其导入 Jupyter Notebook 中。 2. 数据预处理:数据预处理是数据分析的重要部分,它包括去除重复值、缺失值、异常值等,以及数据类型转换、数据归一化等。 3. 数据探索:在数据预处理之后,我们需要探索数据以了解数据的分布、相关性等,可以使用可视化工具(如 Matplotlib、Seaborn 等)展示数据。 4. 建模和分析:根据数据的特点和目的,选择适当的建模方法和算法,进行模型训练和分析,可以使用 Scikit-Learn 等 Python 机器学习库。 5. 结果展示:根据分析结果,展示数据分析和建模的结果,可以使用表格、图表等方式进行展示。 下面是一个简单的数据分析示例,包括了数据导入、数据预处理、数据探索和建模分析等: ``` # 导入所需的库和数据 import pandas as pd import matplotlib.pyplot as plt from sklearn.linear_model import LinearRegression data = pd.read_csv('data.csv') # 数据预处理 data = data.drop_duplicates() # 去除重复值 data = data.dropna() # 去除缺失值 data['date'] = pd.to_datetime(data['date']) # 将日期字符串转换为日期类型 # 数据探索 plt.scatter(data['feature1'], data['feature2']) plt.xlabel('Feature 1') plt.ylabel('Feature 2') plt.show() # 建模和分析 X = data[['feature1', 'feature2']] y = data['target'] model = LinearRegression() model.fit(X, y) print('Coefficients:', model.coef_) print('Intercept:', model.intercept_) print('R-squared:', model.score(X, y)) # 结果展示 predictions = model.predict(X) data['predictions'] = predictions data.to_csv('results.csv', index=False) ``` 在实际应用中,需要根据具体的数据和问题进行相应的调整和改进。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值