博主这个小菜谈谈大数据吧,真正大数据分析并不是起源于人类基因组计划,而是很久之前的一位领航员画的大海路线图及相关信息(天气、风向、洋流等等),所以向他致敬!或许他都不知道这叫大数据分析。。。
人类基因组计划之后,科学家们发现找到gene的因果关系很难,相反去找gene的相关关系相对容易一些,如果说一个基因缺失或重复导致一种疾病这种情况很少的,大部分人类所患的疾病都是有很多gene共同作用造成的,这时候疾病与gene之间存在相关性,但因果关系却不怎么那么牢靠。话说量子力学要打破几千年来人类的因果观念。。。
而大数据的核心观念就是找相关性,不去深究因果性,探求因果性的代价太大而且所预测的信息相比着低精确度地相关性来说少了许多(这个低有一定的阈值),例子就不用多说了,网上一大堆的成功例子。相关性的例子成功的很多,但是因果性仍然很重要,因为科学想要知道为什么,所以博主觉得相关性支持因果性,最终的目的是想找到其中的因果,比如欧洲的大型强子对撞机仍然想探寻上帝粒子。。。
言归正书:
如果两个变量间关系属于因果关系,一般用回归来研究;如果是平行关系,只能用相关来研究。
所有回归和相关分析都可以用直线模型代替,多元回归和相关分析求矩阵(好难。。。)