2018年C题:对恐怖袭击事件记录数据的量化分析
-
任务1:依据危害性对恐怖袭击事件分级
影响因素:人员伤亡、经济损失、事件发生的时机、地域、针对的对象
目标:
1、将附件1给出的事件按危害程度从高到低分为一至五级。
2、列出近二十年来危害程度最高的十大恐怖袭击事件。
3、给出表1中事件的分级。
解题思路:
建立基于权重分配的事件结果量化分级模型。根据数据特 征选出了 4 个指标(袭击事件死亡总数、受伤总数、财产损失价值以及人质或绑 架总数),通过中位数插值法填充变量中的缺失值,计算 4 个指标的 KMO 值为 0.714,为了获得更加精确的指标权重,分别使用主成分分析方法和熵值系数法 对模型进行求解,获得的指标权重值分别为(0.246,0.196,0.301,0.257)和 (0.108,0.137,0.429,0.326),然后利用 K-means 聚类方法对事件结果量化值 进行五项聚类,实现数据的量化分级。
模型建立(基于权重分配的量化分级模型)
1、分析出事件危害等级的四项评价指标:袭击事件死亡总数X1、受伤总数X2、财产损失价值X3、人质或绑架总数X4。
2、数据处理:将附件 1 中的数据做冗余和插值填充等处理。得到处理后的完整数据附件 A。
在死亡总数方面,将附件 1 中的死亡总数缺失的袭击事件去除,未考虑到后续分析中;
在受伤总数方面,将附件 1 中的受伤总数缺失的袭击事件去除,未考虑到后续分析中;
在人质或绑架总数方面,1、本文将人质或绑架的受害者标签为-9(不知道受害人是否被劫持或绑架)的袭击事件去除; 2、将人质或绑架的受害者标签为 0(受害者没有被劫持或绑架),且人质或绑架总数为空值的袭击事件的人质或绑架总数置为 0; 3、在上述处理的结果上,针对人质或绑架总数标签为-99(人质的数量不知道或不确定)的袭击事件,本文利用处理后数据的人质或绑架总数的中位数,来为作为此类事件的人质或绑架总数做插值填充。
在财产损失价值方面,也是中位数插值填充。
3、建立基于权重分配的事件结果量化分级模型, 量化结果 Y 如式(4-1)所示。
模型求解
为了求解上式中的权重的精确值,用基于主成分分析的权重确定和 K-means聚类算法对量化模型进行权重求解的同时(法1),还用了基于熵值的权重确定和 K-means 聚类算法对量化模型的权重进行了求解(法2)。
法1:基于主成分分析权重确定和 K-means 聚类的求解:根据主成分分析的权重确定,得到事件结果Y的量化表达式,再通过对Y值进行 K-means 聚类,聚成 5 个类别等级。通过对聚类结果的分析, 以各个类别等级的量化结果值,划定 5 个级别的危害影响值的判定范围。
主成分分析:把原本相关性较强的变量X1、X2...Xn重新组合,生成 少数几个彼此不相关的变量F1、F2...Fm。
F1 = a11*X1 + a21*X2 +...+ an1*Xn + a*e1。
F2 = a12*X1 + a22*X2 +...+ an2*Xn + a2*e。
...
Fm = a1m*X1 + a2m*X2 +...+ anm*Xn &#