晃晃悠悠的又看完一本书:《统计之美:人工智能时代的科学思维》
该书在2019年3月首次于电子工业出版社发行,由数据科学领域从业多年的李舰博士和海恩共同编写。总体来看,本书基于经典统计学的知识体系,每章使用历史经典故事、网络热点事件、行业真实案例等背景知识对知识点进行介绍。
个人感受是一本故事性质的统计学科普书籍,着重对统计学美感和思维的介绍,比较适合对大数据和人工智能感兴趣的读者入门AI统计基础。
本文将从四个方面简要概述书中内容,并谈一点自己的粗浅感悟。
一、基础统计学
二、数据可视化
三、数据陷阱
四、数据与时代
基础统计学
统计学的定义是这样说的:一门收集数据、分析数据,并根据数据进行推断的艺术和科学。
无论是科学还是艺术,共通点都来源于生活,很多身边的大小事都蕴含了丰富的统计学原理;而作为一门应用型学科,枯燥的定理和公式是其科学性的基础;本文也将通过列举很多小例子来引入生活中常见的统计学基础概念。
打台球这项运动大众都比较熟悉,根据牛顿第二定律,台球受力后会产生一个瞄准方向上的加速度,于是白球运动起来撞击到黑球。然后在运动方向上给黑球一个力,使得黑球也运动起来,最终进洞。即使再厉害的台球高手也没办法通过控制击球力度和目测角度让台球按照既定的路线运动,如球台摩擦力、材料因素、空气阻力等等。我们生活的世界并不具备确定性,任何一个问题的影响因素都是错综复杂的。从这个意义上来说,我们生活在一个随机的世界。
不确定性:缺乏知识来描述当前情况或估计将来的结果。
随机性:事务固有模式和可预测性的缺失,但通常遵循某种概率分布。
正是由于这种随机不确定性,人们为了认知当前情况,运用统计工具辅助了解,引入了概率的理念。
概率论:研究大量随机现象的统计规律性的学科,其主要对象是随机试验、随机事件及其概率、随机变量及其概率分布和数字特征。
概率:合适情况的个数占所有可能发生的情况的个数的比例;一个在0-1之间的实数,是对随机事件发生之可能性的度量。
大数定律(Law of large numbers):样本数量越多,则平均就越趋近期望值。
提到概率,就不得不知道排列组合的概念,这是计算古典概率常用的思路。
排列:从n个元素中取出m个元素,如果这m个元素不重复并且有顺序,则称为排列。
组合:从n个元素中取出m个元素,不考虑顺序,则称为组合。
概率论中最经典的贝叶斯定理必须要有排面:
贝叶斯定理:关于随机事件A和B的条件概率,其中P(A|B)是在B发生的情况下A发生的可能性。
贝叶斯推断:推断统计的一种方法,该方法使用贝叶斯定理,在有更多的证据及信息时,更新特定假设的概率。
参数估计:通过测量或经验数据来估计概率分布参数的数值。这些参数描述了实质情况或实际对象,它们能够回答估计函数提出的问题。
人们在对不确定性事件寻求规律时,往往会根据已有的经验或知识做出推测,再利用统计工具验证。统计学经常研究预测的问题,随着计算机时代的发展,很多模型和算法都很容易实现,把数据扔进去就能预测结果,但往往会导致误用,一定要结合实际的背景和原理才能得出相对可行的结论。
预测:研究和预估不确定事件的发生及结果,是统计推断的一部分,通常需要基于已有的经验和知识。
归纳:对事物特殊的代表进行有限观察,把性质或关系归结到类型,或基于对反复再现的现象的模式进行有限观察,总结出公式或规律。
演绎:从前提中必然得出结论的推理,如果前提为真,则结论必然为真。
双盲实验:实验者和参与者都不知道谁属于控制组谁属于实验组,旨在消除可能出现在实验者和参与者意识当中的主观偏差和个人偏好。
针对数据进行分析的方法并不只有统计学这一种,只要能够从数据中获取价值,可以通过可复制的方式得到结论,就是好的方法。在传统的统计方法基础上,并不局限于数学的背景,诞生了各种各样的分析方法。那么掌握一定的数学知识,可以对这些方法有更透彻的理解,才能以更加灵活的方式从数据中获取价值。
基本的线性代数基础包括向量和矩阵运算,以及线性方程组和线性变换等知识。所谓空间,在数学上有严格的定义,也存在各种各样不同的空间,但最符合我们理解真实世界直觉的是欧几里得空间(Euclidean Space),即三维世界。
利用向量,我们可以描述空间中的点,进而推广到多维空间中去可以解决更多更复杂的问题。
向量(vector):同时具有大小和方向的几何对象。与向量概念相对的是只有大小而没有方向的标量。
矩阵:将一些元素排列成若干行,每行放上相同数量的元素,就是一个矩阵。
关于线性方程组和随机变量分布这一块就不做多赘述,详情可见上一篇文章(机器学习常见算法盘点)
以上都是一些基本的统计学基础知识,在当今的时代下,科学的边界并没有那么容易把握,一不小心就容易陷入机械论或者玄学,如何更好的理解和应用科学,可以通过统计学来澄清很多问题。
数据可视化
任何模型和公式只是数据分析的手段,真正的目的是从数据中获取价值,获取价值的方式并不是越复杂越好,反而是越简单越容易被人接受。在人们通常的印象中,数据可视化是为了漂亮和炫酷,所以时常会走入一种追求新技术的极端。
数据可视化的定义是:采用图形的方式将数据中蕴含的统计规律非常直观的展现出来,这才是它的真正含义。
历史上著名的南丁格尔玫瑰花图,创造性的引入了极坐标,将数据展示成了花瓣的形式,非常吸引眼球,也直观的展示了数据规律,继而开创了现代护理这一伟大事业。
1869年米娜德工程师绘制的拿破仑远征图同样惊艳了世人,这幅图通过两个维度展现6种数据类型来直观的显示战争的进程和拿破仑失利的原因。而这幅图也被赞誉为“历史上最好的统计图形”。
那么它好在哪里呢?
只需要简单的告诉读者条形区域的宽度代表行军人数,就能很快阅读到该图的主要含义,拿破仑的失败不是大战役造成的损失,而是行军过程中人数逐渐减少。其次,信息量丰富,二维图形展示了6种不同数据类型,分别是军队的数量、行进的路程、维度、经纬度、行进方向特定日期或事件的位置,比文字描述要方便得多。
一些基础的统计图形包括:直方图、饼图、条形图、堆叠条形图、气泡图、散点图、箱线图等,各自有使用的场景及优势,传统的数据可视化主要借助于静态的统计图形来展现信息。随着新信息时代,我们可以通过计算机产生更丰富更复杂的动态图形,并且包含更大的信息量。但是在巨大的信息量中保持图形的直观性,是一个新的挑战。
数据陷阱
我们常说“水能载舟,亦能覆舟”,数据分析可以挖到金矿,也可以成为坏人的帮凶。正如我们假设这个随机的世界,如果数据与假设不匹配,方法与模型不匹配,那么得出的结论将没有任何意义。
很多时候,看上去有充分理由的道理实际上并没有那么值得推敲,很多约定俗成的认知也没有那么经得起深究。现实世界中,统计的误导也不在少数。
曾几何时,网络上流传着一个关于天蝎座的传说——天蝎座一统IT界:李彦宏(百度)、马化腾(腾讯)、周鸿祎(360)、杨元庆(联想)、丁磊(网易)、张朝阳(搜狐)、陈天桥(盛大)、杨致远(雅虎)、曹国伟(新浪),这些人都是天蝎座的。一石激起千层浪,随便打开一本星座指南,基本上对天蝎座的描述都跑不了“坚持、腹黑、求胜”等词汇。在看过这个传说之后,令人不禁好奇那些IT界风险投资者在选择是不是投资创业公司时,会不会去调查一下创始人或管理团队有多少天蝎座?
仅仅是这样的传说,我们就深信不疑了呢?用数据来验证下。数据源来自第六次全国人口普查汇总数据,找出2009年11月1日-2010年10月31日之间的月度出生数据。
可以发现,射手座人口最多,天蝎座其次,这两个星座事件相连,位于年底。联想到我国特殊的国情,以前很多夫妻只有春节才可以团聚。怀胎十月的话,孩子差不多也就是在天蝎座出生了。那么天蝎座的传说就可以用数据来解释了,天蝎座人多力量大,基数多,平均均分的话哪里都应该比其他星座的人多。
我们把眼光放到各行各业,一定可以发现某些星座具有压倒性优势的例子,其中的规律与其说是星座的特点,不如说是数据的巧合。
同样的,事物的相关性与因果性、抽样调查各种被平均的工资、幸存者偏差、图形的误导等等都容易使人陷入数据陷阱。
幸存者偏差:是由优胜劣汰之后自然选择出的一个道理:未幸存者已无法发声。人们只看到经过某种筛选而产生的结果,而没有意识到筛选的过程,因此忽略了被筛选掉的关键信息。
我们使用统计方法或图形来解释分析数据、都要深入了解数据的内在规律,包括层次结构、分布情况等。分析的过程是探索和发现规律的过程,而不是强行制造规律。不管是数据可视化乃至分析建模的过程中都要严格注意,不能被表面现象所迷惑。
数据与时代
数据分析这一广阔的领域中,最早的手段主要是传统的统计学。但是随着计算机的诞生,这几十年来产生了各种新的方法和工具,统计学也实现了翻天覆地的变换。在当今的信息时代,计算机是一个值得信赖的伙伴,能帮助我们解决各种各样的难题。
传统具有代表性的统计模型包含回归分析、主成分分析、路径模型、时间序列模型。主成分分析是一种降维方法,同时也体现了统计模型中可解释性的一面。路径模型(结构方程)在社会科学领域有着非常广泛的应用,功能强大但也容易被误用。时间序列的方法主要是建立模型进行预测,常见的方法有ARIMA模型,通过差分使时间序列平稳,对未来的时间点数进行预测。
进入数据爆炸的时代后,数据挖掘和商业智能的概念被广泛提出。数据挖掘的三架马车分了关联规则、聚类,分类这三类常用算法,其中分类算法最为重要,几乎覆盖了数据挖掘的大部分内容。业界也提出了机器学习这个概念,但数据挖掘和机器学习两者在很多方法上是共用的,现在很少有人去刻意区分它们。
后来数据仓库理论成熟起来,可视化技术也有了进展,商业智能(BusinessIntelligence)开始流行,主要针对当时所谓的海量数据进行存储和分析。通常指数据仓库、多维分析、数据挖掘和数据可视化技术进行数据分析以实现商业价值。
在很长一段时间里,商业智能成了企业数据应用的主流方案,在进入数据挖掘时代后,企业意识到数据的深层价值,因此习惯把深入的分析称为大数据。大数据通常除了数据本身之外,还包括一整套大数据的解决方案,但对于解决范围的界定,似乎还没有明确的说法。任何大数据的成功应用,都要针对具体的数据、具体的场景进行不同的分析和建模。
无论哪种分析方法,首先要有一套软硬件平台,当数据量巨大时,对平台的性能要求非常高。传统的方式是使用大型机甚至超级计算机,06年开始,云计算这个词逐渐进入人们视线,基于普通个人电脑服务器的集群方案成了主流,在这样的平台下,数据可以很方便的进行存储和分析,并且不怕数据量激增,只需要简单的增加硬件即可。
有了软硬件和系统架构之后,关键就是具体的分析能力了,数据科学是一个很流行的词。它是一门统计学、计算机科学和领域知识的融合。主要从人的角度出发,强调的是融合多种理论与技术手段,基于大数据,使用科学方法从数据中获取知识。这是数据科学家的职责,也是人们对大数据的期待。
有了云计算平台作为基础框架,用数据科学来进行分析,促进了大数据的蓬勃发展。近几年,人工智能变得越来越火,实际上也是大数据的延伸。目前人工智能的主要技术是深度学习,其结构模拟了人的神经系统,在很多认知问题上有着非常好的效果,并且能够很容易地在GPU上实现并行计算,在业界非常受追捧。
实际上大数据的潜力远不止于此,随着物联网的兴起,数据只会越来越多、越来越复杂,需要更深入理解各类方法和各种应用场景,未来的大数据必将创造更大的价值、更深远的影响社会的进步。
后记
全书没有局限于通用统计学教材的绝对专业,而是结合互联网时代背景引出一个个生动的小故事,着重刻画知识的趣与美,具有一定的趣味性。在此引用统计学家C.R.劳的名言作为结尾:“在终极的分析中,一切知识都是历史;在抽象的意义下,一切科学都是数学;在理性的基础上,所有判断都是统计学。”