题目背景
问题一
- 对这些玻璃文物的表面风化与其玻璃类型、纹饰和颜色的关系进行分析;
- 结合玻璃的类型,分析文物样品表面有无风化化学成分含量的统计规律,
- 并根据风化点检测数据,预测其风化前的化学成分含量
关键词
中心对数变换,卡方检验,fisher精确检验
预先准备
缺失值处理:并未将缺失值设为0,而是结合实际意义,对仪器的精度进行考察,最后确定用0.04%来代替缺失值,以后在进行缺失值处理的时候,也可以采用类似的方法
异常值处理:结合题目条件,将成分比例累加和进行排查,去除介于85%~105%之外的数据
中心对数比变换:考虑到成分数据的限制,对附件表单2中的成分数据进行中心对数比变换处理有利于解决了定和约束带来的分析困难,更加直观的反映了成分的相对重要性,也解决成分数据严重右偏的问题,而且经过 CLR 处理后的指标分量与0的大小关系体现了该成分 的相对重要性是高于平均还是低于平均.
中心对数比变换公式如下:
即既可以利用中心对数比变换将成分数据进行处理,也可以利用逆变换将处理后的数据转换为成分数据
分析是否风化与玻璃类型、纹饰和颜色的关系
问题一的第一小问属于相关性分析,考虑到三个因素均为分类变量,常用的皮尔逊相关系数和斯皮尔曼相关系数在这里使用并不合适,而是运用更适合分类变量的卡方检验和fisher精确检验来探究这些变量的相关性。
卡方检验
卡方检验分为卡方独立性检验和卡方拟合优度检验,常见的卡方检验是pearson卡方检验,对于样本数量大于40且期望频数均大于5的情况,利用pearson卡方检验,对于期望频数小于5大于1,用连续性矫正的卡方检验(对于总体数量小于40,用fisher精确检验)
卡方拟合优度检验
从简单的说起,什么是卡方拟合优度检验?
举个例子,一个袋子里面有四个球,编号分别为1,2,3,4,有放回的抽100次,我们的期望是
1号 | 2号 | 3号 | 4号 |
25 | 25 | 25 | 25 |
即球的编号与抽出球的次数无关,但是我们进行一次观测会发现结果是
1 | 2 | 3 | 4 |
20 | 19 | 28 | 33 |
与我们预想中的结果有些偏差,这个偏差是正常的,是在我们结论成立的接受范围之内的,还是我们的结论不正确,即拟合优度不高所造成的,因此我们需要进行检验
如何检验,为考察到所有球实际抽取次数与我们期望抽取次数的偏差,我们将每个球的期望与实际抽取次数的差值求平方,保证所有的偏差都会正向被记录(别问我为什么不用绝对值),然后除以
该球的期望再求和,即卡方公式
我们代入数据计算出卡方值为5.36,自由度为3,进行查表
查表可得显著性水平为0.05时自由度为3的卡方值为7.815,大于我们计算出来的卡方值,因此,我们无法拒绝原假设(这里的原假设就是抽球的次数与球的编号无关),因此我们认为抽球的次数与球的编号无关。(朴实无华)
为什么n要大于40,因为卡方值不是连续分布的,比如如果你一个袋子俩个球,有放回的抽俩次,卡方取值只会为2,0,尽管你进行无数次实验,最终结果也只会是这样的
而实际的卡方分布图像是这样的
样本容量大了,能取到的卡方值才会多,才能更好的用这些直方图去逼近,就好像这样
有足够多的卡方取值,才可以忽略两者问的差异,否则将可能导致较大的偏差
卡方独立性检验
同样的,卡方独立性检验就是检验俩个变量之间相关与否,对样本数量和格子里的频数都有要求,样本大于40,格子大于5,方法其实差不多,都是用观测到的频数-期望频数的平方比上期望频数再进行求和得到卡方值,例如:
甜 | 咸 | ||
男 | 32 | 68 | 100 |
女 | 18 | 82 | 100 |
50 | 150 | 200 |
原假设性别与爱好相互独立,因此
P(男甜)=p(甜)*p(男)
男甜期望人数为总人数*p(男甜)
依次类推算出全部期望,然后计算卡方值,这里的自由度为1,因为边缘总计是定的,确定了一个,就都确定下来了
yates连续性修正卡方检验
如果一个格子里面的小于5大于1,就用yates连续性修正卡方检验。
为什么要修正?
我们之前提到过,卡方检验归根到底是近似,就像用一个个直方图去逼近曲线,但这是不精确的,也可以这么说,卡方值是把样本列联表的数据浓缩成一个统计量,一次样本,一个统计量,是对这件事的一个近似,而不是事物本身,将这个事件浓缩了,再去看他的概率,这样子在小样本下,拟合效果就会不好,因此我们要对其进行修正
如何修正?
我们后面会提到fisher精确检验,与卡方检验不同,fisher精确检验计算的是事件本身发生的概率,没浓缩,是精确的(这个具体我们后面再提,你现在就默认他精确就行了),唯一的缺点是计算量大,由于当时的限制,就产生这么一个折中的方法,卡方检验计算简单但小样本不精确,fisher精确但计算不简单,因此我们就拿着fisher精确检验的结果去修正卡方检验的结果(卡方检验的p值永远比精确检验算出来的p值要小,本不该拒绝的原假设,用卡方检验可能就拒绝了)
修正公式?
朴实无华,每一项减一个0.5,就修正了,降低卡方值,从而增大p值,从而使结论更加准确。
个人想法
这个东西应该只是个调和产物,现在计算机fisher精确都能带动感觉,这个东西感觉没什么必要。但是比赛的时候你写个这个感觉会更好,让他知道你还懂个这个。
fisher精确检验
再举个例子
甜 | 咸 | ||
男 | a | b | a+b |
女 | c | d | c+d |
a+c | b+d | n |
边缘总计已经定下来了
我们先来看这个事件发生的概率是多少
高中学的超几何分布,那这样就可以把p值确定下来了吗,是不行的,还要根据你的原假设和备择假设去加上更极端的事情,(单边检验就加上倾向于备择假设的事件发生概率,双边检验就都加),例如
如果我们原假设是性别与爱好无关,备择假设是男生喜欢甜的,
那么除了我们观测到的这种情况,还要在男生总人数和甜总人数不变的情况下,去将a不断调大,然后计算各个事件的概率,将比观测事件概率小的进行累加,从而求得p值,
如果你备择假设是性别与爱好有关,那么就要去将a调大,调小,再去计算各个事件的概率,将比观测事件概率小的进行累加,从而求得p值,
论文数据展示
论文结果
利用spss等诸多软件可以复现论文结果,值得注意的是,对于玻璃类型与表面风化的关系,论文实际记录的是连续性矫正卡方检验,可能是出于高钾玻璃无风化这一类别只有6个的考虑
分析文物样品表面有无风化化学成分含量的统计规律
考虑到论文对该小问分析过少,因此这里只简单提及,可以考虑计算偏度峰度,变异系数,画箱线图,分析相关性等方面进行分析
根据风化点检测数据,预测其风化前的化学成分含量
题目数据局限
论文解决方法
(免责声明:由于论文在这里并未进行详细介绍,有可能理解有误)
将数据分为四类:铅钡无风化,铅钡风化,高钾无风化,高钾风化,(因为前面探究过只有玻璃类型与表面风化有关,因此这么分类是合理的),然后将同种玻璃类型按照不同的化学成分依次进行分析,例如sio2这种化学成分的相对含量,假设其风化前与风化后总体均为正态分布。
这里其实我进行检验可以发现,他风化前后样本并不都服从正态分布,例如高钾无风化
正态性检验 | ||||||
柯尔莫戈洛夫-斯米诺夫(V)a | 夏皮洛-威尔克 | |||||
统计 | 自由度 | 显著性 | 统计 | 自由度 | 显著性 | |
VAR00015 | 0.253 | 12 | 0.032 | 0.878 | 12 | 0.083 |
VAR00016 | 0.314 | 12 | 0.002 | 0.714 | 12 | 0.001 |
VAR00017 | 0.349 | 12 | 0 | 0.561 | 12 | 0 |
VAR00018 | 0.375 | 12 | 0 | 0.626 | 12 | 0 |
VAR00019 | 0.334 | 12 | 0.001 | 0.785 | 12 | 0.006 |
VAR00020 | 0.189 | 12 | .200* | 0.949 | 12 | 0.621 |
VAR00021 | 0.268 | 12 | 0.018 | 0.748 | 12 | 0.003 |
VAR00022 | 0.275 | 12 | 0.013 | 0.739 | 12 | 0.002 |
VAR00023 | 0.195 | 12 | .200* | 0.871 | 12 | 0.067 |
VAR00024 | 0.291 | 12 | 0.006 | 0.762 | 12 | 0.004 |
VAR00025 | 0.251 | 12 | 0.036 | 0.825 | 12 | 0.018 |
VAR00026 | 0.24 | 12 | 0.054 | 0.892 | 12 | 0.125 |
VAR00027 | 0.405 | 12 | 0 | 0.521 | 12 | 0 |
VAR00028 | 0.268 | 12 | 0.017 | 0.783 | 12 | 0.006 |
* 这是真显著性的下限。 | ||||||
a 里利氏显著性修正 |
然而样本不服从正态分布,不代表总体不服从正态分布(小样本),我们这里给出的是假设总体服从正态分布(这个假设是不是有点过于强了)
然后再假设风化前与风化后方差齐性(即等方差),然后可以得到如下:,其中clr(x)为风化后总体,clr(y)为风化前总体
毕竟数据量小了,且数据不对应,只能通过这样来调节,使得总体分布匹配(把第三个式子移项可以得到左右俩边均为标准正态分布)
然后又由于等方差,所以约掉方差,最后得到论文所展现公式:
利用该公式分别计算,然后利用中心对数比反变换将计算出来的结果重新转化为成分数据,最后进行统计。