《看穿一切数字的统计学-西内启著(日)》

随机对照试验

费舍尔:

  • A/B test,随机对照试验
  • 历史第一次随机对照试验:fisher的夫人与奶茶(经典:先放奶还是先放红茶)
  • 随机化试验:利用随机化可以使进行比较的两组之间各个条件基本相同。比如相比较肥料A,B,谁的效果好,为了排除光照土壤排水等等因素的影响,可以20块比,每块地随机用A,B,最后统计。
  • 随机对照试验并不是绝对的,会受到现实伦理感情等的限制。比如,航天船3人还是4人好?显然不可能100次航天,50次3人,50次4人这样来做试验。

优生学

达尔文-高尔顿

达尔文的表弟,基于进化论提出优生学。(现如今被禁止,不仅因为优生学不正确,而且这一理念曾经是纳粹的信念,导致“劣质人种”等分级以及大屠杀清楚事件等)之后在高尔顿及其学生在调研及利用回归分析夫妻身高与孩子身高的试验中,自己得出的结论与优生学矛盾。但是,实际上当时他们使用的回归方法的结果也是不可靠的,因为样本量太少,随机性很大。

辛普森悖论:(控制无关变量)

参考链接:https://www.jianshu.com/p/2738b81ccace
辛普森悖论 (Simpson’s Paradox) 是概率和统计学中的一种现象,即几组不同的数据中均存在一种趋势,但当这些数据组组合在一起后,这种趋势消失或反转。

辛普森悖论这种现象违背了我们的直觉:辛普森悖论得出的结果总是隐含了潜伏变量,即某种前提,当我们想当然的忽略了某种变量,我们的直觉就会将 “值与量” 两个维度的数据,归纳成了 “值” 一个维度的数据,并进行了合并。

例子
假如有每周运动小时数与两组患者 (50 岁以下和 50 岁以上患者) 患病风险的数据
运动小时数~患病风险
在这里插入图片描述
但是,当把所有年龄合并时
运动小时数~患病风险
在这里插入图片描述

原理:

数据中存在多个单独分布的隐藏变量,不当拆分时就会造成辛普森悖论。这种隐藏变量被称为潜伏变量,并且它们通常难以识别。而这种潜伏变量可能是由于采样错误或者数据领域本身属性造成的。

上面的例子中,因为年龄分组了,而年龄恰巧是一个跟运动风险很相关的潜变量
如果绘制患病概率与年龄的关系,我们可以看到患者的年龄与疾病概率强烈正相关。
在这里插入图片描述
随着患者年龄的增加,患病的风险增加。所以即使运动量相同,老年患者也比年轻患者更容易患病。

另外的例子
https://zhuanlan.zhihu.com/p/47339109
辛普森悖论得名于英国统计学家E.H.辛普森(E.H.Simpson),这是他于1951年阐述的一种现象:当我们以分组和聚合两种方式统计同一数据集时最后得出的两个趋势可能是完全逆转的。在上面这个“吃饭”案例中,Carlo’s餐厅的两性推荐率更高,但它的总体推荐率却低了。如果不想被绕晕,我们可以用一些直观的数据来说明:
在这里插入图片描述
上表清楚地表明,当数据分组时,Carlo’s是首选,但是当数据合并时,Sophia是首选!导致这一悖论的原因是样本大小。当我们分组统计数据时,Carlo’s餐厅的女性推荐率高达90%,但它的样本只有40个,只占总评论人数的10%;而Sophia餐厅的女性推荐率虽然只有80%,但女性评论者有250个,这显然会大幅拉高餐厅的总体好评率。
所以在挑选餐厅时,我们事先要确定数据的统计方法,是合并更合理,还是分组更合理——这取决于数据生成的过程,即数据的因果模型。

总结

以上的例子,其中运动小时数~患病风险 分组时候是合理的,因为年龄是潜变量,会对患病风险有很大影响,所以根据把对结果产生影响的其它条件保持一致性原则(即做好control,控制其它无关变量),需要将年龄分组再进一步分析运动小时数~患病风险的关系。

同理,想到了,生物学分析中,经常听到有没有控制基因表达量再去比较分析等,这就是暗含基因表达量跟研究的问题有很大相关,如果不控制表达量,就是不当拆分,会产生错误结论。(有没有控制基因长度,有没有控制处理时间长短等等)

解决方法

多元回归分析,逻辑回归

神经网络与回归模型的应用区别

神经网络模型,里面的过程及算法等是黑匣子,我们没法知道具体的计算过程,但是其能够准确预测结果。
传统的回归模型,虽然没有神经网络那么强大,但是能够知道每个变量的系数等具体的计算过程,能够对实际行动有些指导意义。

比如
市场调查中,利用来电频率,对品牌的认可,店面整洁,商品价格这4个变量预测顾客的消费额度,指导店家展开活动吸引顾客提高收益。
① 回归模型,可以得到比如来店频率高的顾客消费额度高,店面整洁这个因素对预测贡献小等,那么店家就可以开展吸引顾客来店的活动,来提高收益。
②而神经网络模型,利用一堆变量,能够很准确的预测顾客的消费额度,但是由于算法是黑匣子,不知道哪些变量是起关键作用,或者起什么作用,因此对实际应用指导意义较小。
③但是,在一些只需要预测顾客可能购买的商品,事先发现可能退会的顾客等,神经网络预测更准确,这时候作用就更大,我们不需要知道具体黑匣子的算法,我们只需要知道最后预测的结果就行。以预测本身为目的,那么神经网络更适合。在并非以预测为目的,而是希望知道预测模型指导今后应该怎么做,回归模型的作用可能更有效。
具体实际情况,具体分析,选择合适的方法,事半功倍,不应该为了fancy而浪费时间及精力

文本挖掘-文献计量学

初期的文献计量学一个关于莎士比亚和弗朗西斯-琼斯的故事。

18世纪初,人们当时怀疑莎士比亚是不是真是存在的人还是一个笔名。因为莎士比亚出身平民,但却对贵族文化教养描写的十分细致,就怀疑是否是弗朗西斯-琼斯的笔名(弗朗西斯-琼斯,当时意味伟大的哲学家,也证明了归纳推理的重要性,是统计学家们最尊敬的人物之一,他的文学素养和教育程度都很高,有能力写出莎士比亚戏曲)。就对两者的文章进行文本分析,最后发现的确是不一样。

语素分析,N元语法模型

归纳与演绎

演绎的代表牛顿力学理论(牛顿三大定理)

频率派与贝叶斯派

例子说明

在这里插入图片描述

如果投硬币10次,全部是正面,那么猜该硬币是正常硬币还是老千硬币。

频率学派的处理方式:

假设检验
假设是正常硬币,那么10次都是正面的概率,即p值=(0.5)^10=0.001
根据小概率事件不发生原则,显然0.001的概率说明基本不可能出现,所以原假设不成立。
否定该硬币是正常硬币,接受该硬币是老千硬币。

贝叶斯学派的处理方式:

先有个先验概率
在这里插入图片描述
那么最后,是老千硬币的概率为0.991,显然猜测是老千硬币

贝叶斯方法最早由一位叫贝叶斯的牧师所写的论文写出。
事前概率对最终得到后验概率的应影响很小,可以尝试计算当先验概率设置为0.9和0.1时看最后后验概率的大小,最终后验概率也是0.9243的概率是老千硬币。

注意涉及“不允许出现错误或者需要保守判断”的时候,不适合使用贝叶斯,比如是否应该认可新药的使用等,因为一开始假设0.5,0.5的概率是对生命的不负责,这时候应该采取随机对照试验,或者积累数据采用频率学派的假设检验。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值