统计学习方法 - 绪论部分
为什么要学习统计学习
首先,为了知道如何以及何时使用各种分析方法,理解各种分析方法背后的思想很重要。要想掌握更精巧复杂的方法,你必须先理解较简单的方法;其次,当你想准确地评估一种分析方法的效果时,你得知道其运行的多好或者多么不好;第三,这是一个令人兴奋的研究领域,在科学、业界和金融领域有重要的应用。最后,统计学习也是一名现代数据科学家的重要素养。
我们开始吧
接触统计方法的学习,就一定要明白,统计分析的意义是什么,那么就以之前征求大家意见的调查问卷为例,看看这个分析的过程是怎么进行的。
一份只有一个题目的调查问卷
在生活群中,我通过问卷星向群内包括我在内的32人发放了调查问卷,最后收回了11份问卷,正是通过这份问卷,我成功的获取到了大家希望了解的知识方向。这份问卷即使在一个30+的群体中发放,但是由于现实原因还是没有收集到全量数据,也就没有对于总体情况的完美认知。换言之,我们不能拒绝一种假设,即未填写问卷的群体中,集中存在大量对统计学或者西方经济学感兴趣的人,他们如果填写了问卷,那么将极大影响整体选项的占比情况。
填写问卷的人群能否代表整体意愿呢
因为没有调查到每一个人,所以在分享知识之前,我的内心是不安的,如果真的如同上面的假设一样,剩余的人群只是因为某种原因错过了填写问卷的时机,而且他们希望听到的内容其实是除“统计学习方法”以外的另两者。那么我的调查结果就是失败的,甚至判断的误差过大,大到都不如瞎猜一个(1/3)的概率。
但我最后说服了自己,因为在设计问卷之初,我考虑到了这几点内容:
1、我的问题中没有夹带任何的个人情感,是一个很客观的问题,没有影响到任何一个人的选择。
2、我在备选项中注明了对每一个选项的详细解释,所以不会出现理解不请而选择错误的情况。排除了选项理解不请而造成选择错误的负面影响。
3、我刚来到公司,没有和大家中的任何一人有情感上的隔阂,所以不会存在因为赌气故意不填写问卷或乱填写的这种情况。甚至和大家相处的不错,大家会因为我的正面影响踊跃填写问卷。所以填写人群没有受到来自我的负面影响。
4、我的发放时间是大家早晨上班之前,结束时间是大家午饭期间,所以问卷是有足够机会被每个人了解并知道它存在于公司微信群的。且链接标题同样非常客观,并注明了是无记名投票,所以填写人群没有受到来自问卷的影响。
前前后后去审视这份只有一道题的调查问卷,听起来实在有点牵强对不对,心想:一道题,也就三个选项,弄得像高射炮打蚊子一样。
其实不然。
这个思路过程中,我们首先面对的就是一个统计分析过程中的常见情况,总体无法统计完全,被迫用现有的可获取到的样本来推断总体的情况,即推断在所有人中是否绝大多数希望听到“统计分析方法”的技术内容。我们承认由于调查的是部分结果而并非全部导致了潜在的误差,但我们可以通过后续的其他已知条件来增强我们对于现有调查结果的信任程度。我们反复的考虑前因后果,为的只有一个,那就是让数据自己不受任何主观影响的彰显自身潜在的价值。
传统统计
统计学的定义:收集、处理、分析、解释数据并从数据中得出结论的科学
收集的数据从来都不是统计学自己学科产生的数据,统计学就好像我们从启蒙教育开始学习数学的加减乘除一样,它是一门工具学科,可以应用于多领域和各个层面。要处理的内容从来不局限于统计学领域内的知识和业务规范,可以说,应用于哪个领域,抽取到哪个领域的数据,都必须对数据间的潜在联系有一定的认知。分析需要有利器支撑,但切入点的选择并非天马行空,选择起点需要我们有开放的思维,但同样需要我们有清晰的逻辑来引导想象力在正确的方向下深挖。解释数据不仅是我们在分析后找到了数据间的联系称之为对数据的解释,更在于结合其实际意义,判断数据背后能够带来怎样的实际价值。
在统计学中,由于对于总体缺乏足够的认知,又或者我们没有条件去了解总体的真实情况,比如我们需要对一批灯泡进行使用时长的检验,我们不能对每一个出厂的灯泡进行检验,因为验证灯泡使用时长的要求就是让灯泡一直常亮直到坏掉为止;又或者检测兵工厂的一批炮弹是否有哑弹臭弹的情形,我们不能对所有炮弹逐一检验,道理同上。那么统计学是做什么的呢?一句话概括,我们运用各种统计知识,学习各种统计方法,包括参数估计,假设检验,以及后续的各种分析方法,例如回归分析,时间序列分析等等,目的只有一个。用样本估计总体就是我们的终极目标。
大数据时代的统计学
现代统计中,统计学的旧有定义同样适用。
大数据不能被直接拿来使用,统计学依然是数据分析的灵魂。
现在社会上有一种流行的说法,认为在大数据时代,“样本 = 全体”,人们得到的不是抽样数据而是全数据,因而只需要简单地数一数就可以下结论了,复杂的统计学方法可以不再需要了。
在我看来,这种观点非常错误。首先,大数据告知信息但不解释信息。打个比方说,大数据是“原油”而不是“汽油”,不能被直接拿来使用。就像股票市场,即使把所有的数据都公布出来,不懂的人依然不知道数据代表的信息。大数据时代,统计学依然是数据分析的灵魂。
我举一个很多数据分析书籍上都会提到的类似的例子。假设你是一名调查人员,要调查的就是某次发生在四川的地震灾难对当地受灾民众的影响。现在你要通过类似于微博的社交媒体对受灾情况进行评估,衡量标准就是灾情发生前后从民众发送的微博文本中进行挖掘,从中观察民众的日常行为和情感是否出现明显变化。生活在大数据时代下,你对于全量数据的获取拥有足够的自信,于是你爬取了或者直接从微博后台获取了全量的用户微博文本。解读之后,你发现大家的小日子过得不错,全网用户的生活似乎根本没有受到任何影响,甚至灾后的一段时间呈现正向情绪的用户占比有所升高,你无法从道德伦理上解释原由,但是大数据的全量给了你足够的信心。于是给出结论:本次灾难的破坏较小,大家的日常生活并未受到显著影响,甚至出现了更正向的趋势。
真的是这样吗?
北上广深一线城市因为其城市居民平均年龄较低而拥有相对更多的微博用户数,所以微博上的用户来自这些城市的比例更高。而地震对于他们的影响微乎其微,所以发生灾难之后,这些人的微博还是一如既往的生活状态。
而反观灾区,一个受灾而无家可归的人,一个受灾的微博用户因为通信设施损坏无法发送微博,他们的种种遭遇,成功让自己在微博世界中隐匿起来,他们没有机会表达自己受灾后的失落,这种情况并非天马行空的猜想,很有可能发生。于是在微博上看到的所谓一派祥和,其中包含的误差难以估计,甚至会间接给予调查者错误的推断。
全量数据固然已经有条件可以获取了,统计方法也不再局限于上述传统统计过程中提到的种种方法,数学和统计学共同衍生出的新型计算机科学,深度学习啊,机器学习啊,人工智能啊,其实有很多都是在做着之前传统统计中类似的工作,我承认其中存在较大的不同。但有一点始终未变,我们挖掘算法中的训练模型,还是在用目前已有的部分样本,去推广到随时间推移不断增加的全量数据池中,并根据需要赋予模型一些类似于人脑的自我总结经验的能力,让它可以做到在训练模型的过程中不断完善自我。目前拿到的是当前时期下的全量数据,但在时间轴上,这是一个时间点下的样本,而时间的四维空间下所展现的数据池才是目前我们观测到的真正意义的总体。
抛出一点干货
箱线图(Boxplot)也称箱须图(Box-whisker Plot),它是用一组数据中的最小值、第一四分位数、中位数、第三四分位数和最大值来反映数据分布的中心位置和散布范围,可以粗略地看出数据是否具有对称性。通过将多组数据的箱线图画在同一坐标上,则可以清晰地显示各组数据的分布差异,为发现问题、改进流程提供线索。
(1)计算上四分位数(Q3),中位数,下四分位数(Q1)
(2)计算上四分位数和下四分位数之间的差值,即四分位数差(IQR,interquartile range)Q3-Q1
(3)绘制箱线图的上下范围,上限为上四分位数,下限为下四分位数。在箱子内部中位数的位置绘制横线。
(4)大于上四分位数1.5倍四分位数差的值,或者小于下四分位数1.5倍四分位数差的值,划为异常值(outliers)。
(5)异常值之外,最靠近上边缘和下边缘的两个值处,画横线,作为箱线图的触须。
(6)极端异常值,即超出四分位数差3倍距离的异常值,用实心点表示;较为温和的异常值,即处于1.5倍-3倍四分位数差之间的异常值,用空心点表示。
(7)为箱线图添加名称,数轴等
1.什么是四分位数
箱线图需要用到统计学的四分位数(Quartile)的概念,所谓四分位数,就是把组中所有数据由小到大排列并分成四等份,处于三个分割点位置的数字就是四分位数。
第一四分位数(Q1),又称“较小四分位数”或“下四分位数”,等于该样本中所有数值由小到大排列后第25%的数字。
第二四分位数(Q2),又称“中位数”,等于该样本中所有数值由小到大排列后第50%的数字。
第三四分位数(Q3),又称“较大四分位数”或“上四分位数”,等于该样本中所有数值由小到大排列后第75%的数字。
第三四分位数与第一四分位数的差距又称四分位间距(InterQuartile Range,IQR)。
计算四分位数首先要确定Q1、Q2、Q3的位置(n表示数字的总个数):
Q1的位置=(n+1)/4
Q2的位置=(n+1)/2
Q3的位置=3(n+1)/4
对于数字个数为奇数的,其四分位数比较容易确定。例如,数字“5、47、48、15、42、41、7、39、45、40、35”共有11项,由小到大排列的结果为“5、7、15、35、39、40、41、42、45、47、48”,计算结果如下:
Q1的位置=(11+1)/4=3,该位置的数字是15。
Q2的位置=(11+1)/2=6,该位置的数字是40。
Q3的位置=3(11+1)/4=9,该位置的数字是45。
而对于数字个数为偶数的,其四分位数确定起来稍微繁琐一点。例如,数字“8、17、38、39、42、44”共有6项,位置计算结果如下:
Q1的位置=(6+1)/4=1.75
Q2的位置=(6+1)/2=3.5
Q3的位置=3(6+1)/4=5.25
这时的数字以数据连续为前提,由所确定位置的前后两个数字共同确定。例如,Q2的位置为3.5,则由第3个数字38和第4个数字39共同确定,计算方法是:38+(39-38)×3.5的小数部分,即38+1×0.5=38.5。该结果实际上是38和39的平均数。
同理,Q1、Q3的计算结果如下:
Q1 = 8+(17-8)×0.75=14.75
Q3 = 42+(44-42)×0.25=42.5
2.箱线图中包含的潜在信息
箱线图作为描述统计的工具之一,其功能有独特之处,主要有以下几点:
1.直观明了地识别数据批中的异常值
一批数据中的异常值值得关注,忽视异常值的存在是十分危险的,不加剔除地把异常值包括进数据的计算分析过程中,对结果会带来不良影响;重视异常值的出现,分析其产生的原因,常常成为发现问题进而改进决策的契机。
箱线图为我们提供了识别异常值的一个标准:异常值被定义为小于Q1-1.5IQR或大于Q3+1.5IQR的值。虽然这种标准有点任意性,但它来源于经验判断,经验表明它在处理需要特别注意的数据方面表现不错。这与识别异常值的经典方法有些不同。众所周知,基于正态分布的3σ法则或z分数方法是以假定数据服从正态分布为前提的,但实际数据往往并不严格服从正态分布。它们判断异常值的标准是以计算数据批的均值和标准差为基础的,而均值和标准差的耐抗性极小,异常值本身会对它们产生较大影响,这样产生的异常值个数不会多于总数0.7%。显然,应用这种方法于非正态分布数据中判断异常值,其有效性是有限的。箱线图的绘制依靠实际数据,不需要事先假定数据服从特定的分布形式,没有对数据作任何限制性要求,它只是真实直观地表现数据形状的本来面貌;另一方面,箱线图判断异常值的标准以四分位数和四分位距为基础,四分位数具有一定的耐抗性,多达25%的数据可以变得任意远而不会很大地扰动四分位数,所以异常值不能对这个标准施加影响,箱线图识别异常值的结果比较客观。由此可见,箱线图在识别异常值方面有一定的优越性。
2.利用箱线图判断数据批的偏态和尾重
比较标准正态分布、不同自由度的t分布和非对称分布数据的箱线图的特征,可以发现:对于标准正态分布的大样本,只有 0.7%的值是异常值,中位数位于上下四分位数的中央,箱线图的方盒关于中位线对称。选取不同自由度的t分布的大样本,代表对称重尾分布,当t分布的自由度越小,尾部越重,就有越大的概率观察到异常值。以卡方分布作为非对称分布的例子进行分析,发现当卡方分布的自由度越小,异常值出现于一侧的概率越大,中位数也越偏离上下四分位数的中心位置,分布偏态性越强。异常值集中在较小值一侧,则分布呈现左偏态;异常值集中在较大值一侧,则分布呈现右偏态。下表列出了几种分布的样本数据箱线图的特征(样本数据由SAS的随机数生成函数自动生成),验证了上述规律。这个规律揭示了数据批分布偏态和尾重的部分信息,尽管它们不能给出偏态和尾重程度的精确度量,但可作为我们粗略估计的依据。
概括为一句话来叙述箱线图的作用,就是箱线图可以用于描述已知数据的分布形状,可以通过结合其它描述统计工具如均值、标准差、偏度、分布函数等对数据整体有一个全面的认知
3.箱线图中的潜在缺陷
1、不能提供关于数据分布偏态和尾重程度的精确度量
2、对于批量比较大的数据批,反应的形状信息更加模糊
3、用中位数代表总体评价水平有一定的局限性