问题一分析
题目非常善良的告诉我们筛选出异常值 那么针对a1到a8中的异常值,很明显可以发现,在基于满分为100的基础上筛选出其异常值,将异常值进行平滑处理(除以10即可)。对于B7中空缺值,首先对问题 B6 进行分析,在B6中选择 1-4 的客户B7 项应该填无子女,结合B7来看计算出其缺失率,根据表格中 B7 没有人填 0 的情况,推断可能是因为某些原因造成了 B7 中填 0 的数据缺失,因此对 B7 中的缺失值进行 0 值填充处理。针对 B1~B17 中的异常值,通过基尼指数建立的决策树对 B6 中出现的异常值进行平滑。关于满意度比较分析,则可采用频率分布直方图和 KDE 平滑估计。
问题二分析
问题二是要求影响因素分析。对a1到B17中的各因素进行无量纲化和卡方检验,并同时进行0-1缩放并采用熵权法取其熵值,算出权重等。基于两者利用 Sigmoid 函数将卡方值和熵值压缩到0-1 区间内,然后对卡方值和熵权值进行综合分析,可得出影响因素。
问题三和问题四分析待更。完整论文以及代码可私聊(私信会回)。关于问题一和问题二有什么不明白的可以评论。