一、题目简析
背景信息较长,关于航空安全数据的真实背景。其中给出了不少提示需要注意。本质是数据分析题目,难度较低,适合小白。
关键知识:G 值是飞机飞行过程中过载情况的直接反应,在着陆安全分析中,G 值通常是描述落 地瞬间安全性的重要指标。着陆瞬间 G 值指的是飞机接地瞬间前 2 秒和后5 秒数据的最大 G 值。
二、逐问解题思路分析
问题1:有些 QAR 数据存在错误,需要对数据进行预处理,去伪存真,以减少错误数据对研究分析带来的影响。请你们的队伍对附件1的数据质量开展可靠性研究,提取与飞行安全相关的部分关键数据项,并对其重要程度进行分析。
(1)错误数据的识别与删除:对每列特征数据利用箱线图筛选出异常数据噪声点(分析离群原因)并剔除。
(2)数据质量可靠性研究:缺失情况、分布情况分析
(3)飞行安全相关数据提取:首先可以根据给出的特征说明附录直接人工选取一些明显相关的数据(比如计算空速),然后对于不确定的特征数据,通过方差过滤、卡方检验、皮尔逊相关系数等方法逐个分析与飞行安全的相关性。
(4)特征重要程度分析:可以建立一个打分模型,采用topsis熵权法对以上计算的各个相关计算量进行合并评价打分。或者直接用随机森林计算重要程度并排名,然后分析得到排名的实际意义。