这是之前发在个人公众号上的文章,希望能对读者有帮助。
现在我们经常能听到一个概念叫做“大数据”,顾名思义,那就是海量的数据,如果再说大一点,那就是天量的数据,但是光有数据也不行,我们还希望这些数据能帮我们解决问题,从数据中得到我们问题的结论,这时候就需要借助我们的统计模型。如果把数据看作原材料的话,那统计建模就是拿数据炒菜的过程。
那么我们怎么拿数据去炒菜呢?对于这个问题,20年前Leo Breiman教授有一个经典的回答,他的答案写在了《Statistical Modeling: The Two Cultures》(统计建模:两种文化)这篇文章里,这是一篇对统计学产生了深远影响的论文,这篇论文发表在2001年,到今天回顾这篇文章,都不得不佩服Breiman教授当时深刻的见解。
统计学是一个比较有意思的学科,很多统计学家其实并不是一开始就学统计,他们都是在各自领域工作着,用着现有的统计学的方法,发现这些方法还不太行,干脆自己来干点统计工作吧,然后干着干着就成统计学家了。比如假设检验里绕不过去的人物Fisher(费舍尔),其实就是一个生物学家,而且在生物学界还占有举足轻重的地位,是现代种群遗传学的的三杰之一。而相关系数和卡方检验的重要奠基人Person(皮尔逊),先是在海德堡大学学习物理学,然后又到到柏林大学学法律,后来对另一个生物学家Galton(高尔顿)提出的回归分析的方法着迷,转而研究统计。
咱们心理学学领域的学者也对统计学做了重要贡献,大家以后做问卷和学高级统计有一个绕不过去的一种方法,叫做因子分析,刚学的时候你会有疑