探索性数据分析
对于任意基于数据的项目,最重要的第一步都是查看数据,这正是探索性数据分析的关键理念所在。通过总结并可视化数据,我们可以对项目获得有价值的洞悉和理解。
概念
结构化数据的组成
结构化数据:数值型数据(连续型数据\离散型数据)、分类数据(二元数据\有序数据)
- 连续型数据:数据可在一个区间内取任何值。(区间数据、浮点型数据、数值数据)
- 离散型数据:数据只能取整数,例如计数。(整数型数据、计数型数据)
- 分类型数据:数据只能从特定集合中取值,表示一系列可能的分类。(枚举数据、列举数据、因子数据、标称数据、多分支数据)
- 二元数据:一种特殊的分类数据,数据值只能从两个值中取其一(例如 0 或1,True 或 False)。(二分数据、逻辑型数据、指示器数据、布尔型数据)
- 有序数据:具有明确排序的分类数据。(有序因子数据)
数据分类的作用:数据分类为软件指明了数据的处理方式。
矩形数据
矩形数据对象是数据科学分析中的典型引用结构,矩形数据对象包括电子表格、数据库表等。
矩形数据本质上是一个二维矩阵,其中行表示记录(事例),列表示特征(变量)。
- 数据框:电子表格等矩形数据是统计和机器学习模型中的基本数据结构。
- 数据特征:通常称数据表中的一列为一个特征。(属性、输入、预测因子、变量)
- 结果:不少数据科学项目涉及对结果的预测,常见的结果为“是”或“否”(例如表1-1中的“拍卖是否竞价?”)。特征有时在实验或研究中用于预测结果。(因变量、响应、目标、输出)
- 记录:通常称数据表中的一行为一条记录。(事例、例子、实例、观察、模式、样本)
除矩形数据外,还有时序数据、空间数据、图形数据。
位置估计
典型值是对数据最常出现位置的估计,即数据的集中趋势。
- 均值:所有数据值之和除以数值的个数。(平均值)
- 加权均值:各数值乘以相应的权重值,然后加总求和,再除以权重的总和。(加权平均值)
- 中位数:使得数据集中分别有一半数据位于该值之上和之下。(第 50 百分位数)
- 加权中位数:使得排序数据集中分别有一半的权重之和位于该值之上和之下。
- 切尾均值:在数据集剔除一定数量的极值后,再求均值。(截尾均值)
- 稳健:对极值不敏感。(耐抗性)
- 离群值:与大部分数据值差异很大的数据值。(极值)
变异性估计
位置只是总结特性的一个维度,另一个维度是变异性(variability),也称离差(dispersion),它测量了数据值是紧密聚集的还是发散的。变异性是统计学的一个核心概念,统计学关注如何测量变异性,如何降低变异性,如何识别真实变异性中的随机性,如何识别真实变异性的各种来源,以及如何在存在变异性的情况下做出决策。
- 偏差:位置的观测值与估计值间的直接差异。(误差、残差)
- 方差:对于 n 个数据值,方差是对距离均值的偏差平方后求和,再除以 n-1。(均方误差)
- 标准偏差:方差的平方根。(L2 范数、欧几里得范数)
- 平均绝对偏差:对数据值与均值间偏差的绝对值计算均值。(L1 范数、曼哈顿范数)
- 中位数绝对偏差:数据值与中位数间绝对偏差的均值。
- 极差:数据集中最大值和最小值间的差值。
- 顺序统计量:基于从大到小排序的数据值的度量。(秩)
- 百分位数:表示一个数据集中,P% 的值小于或等于第 P 百分位数,(100−P)% 的值大于或等于第P 百分位数。(四分位数)
- 四分位距:第75 百分位数和第25 百分位数间的差值。(四分位差)
自由度
自由度是n还是n-1,计算结果的差别并不大,这是因为通常 n 总是足够大,以至于除以 n 或除以 n−1 时,结果并不会有很大的差别。
如果在方差公式中使用了直观的除数 n,那么就会低估方差的真实值和总体的标准偏差。这被称为有偏估计。但是,如果除以 n−1 而不是 n,这时标准偏差就是无偏估计。
要完整地解释为什么使用 n 会导致有偏估计,这就涉及自由度的概念。自由度考虑了计算估计量中的限制个数。在这种情况下,自由度是 n−1,因为其中有一个限制:标准偏差依赖于计算样本的均值。对于很多问题而言,数据科学家并不需要担心自由度的问题。但是在某些情况下,自由度十分重要
探索数据分布
各种估计量都是通过将数据总结为单一数值,去描述数据的位置或变异性。这些估计量可用于探索数据的整体分布情况。
- 箱线图:图基提出的一种绘图,是一种快速可视化数据分布情况的方法。(箱形图、箱须图)
- 频数表:将数值型数据的计数情况置于一组间隔(组距)中。
- 直方图:对频数表的绘图,其中 x 轴是组距,y 轴是计数(或比例)。
- 密度图:直方图的平滑表示,通常基于某种核密度估计。
二元数据和分类数据的分布
使用基本的比例或百分比,我们就能了解分类数据的情况
- 众数:数据集中出现次数最多的类别或值。
- 期望值:如果类别可以与一个数值相关联,可以根据类别的出现概率计算一个平均值。
- 条形图:在绘图中,以条形表示每个类别出现的频数或占比情况。
- 饼图:在绘图中,圆饼中的一个扇形部分表示每个类别出现的频数或占比情况。
相关性
无论是在数据科学还是研究中,很多建模项目的探索性数据分析都要检查预测因子之间的相关性,以及预测因子和目标变量之间的相关性。
- 相关系数:一种用于测量数值变量间相关程度的度量,取值范围在 −1 到 +1 之间。
- 相关矩阵:将变量在一个表格中按行和列显示,表格中每个单元格的值是对应变量间的相关性。
- 散点图:在绘图中,x 轴显示一个变量的值,y 轴显示另一个变量的值。
两个及以上变量
计算上面的估计量时,我们一次仅查看一个变量,这被称为单变量分析。而相关性分析是比较两个变量间关系的一种重要方法,这是双变量分析。包含两个及以上变量的估计量及绘图,即多变量分析。
- 列联表:一种对两个或两个以上分类变量做计数的表格。
- 六边形图:一种用于两个数值变量的绘图,图中使用六边形表示记录的组距。
- 等势线图:一种类似于地形图的绘图,显示了两个数值型变量的密度情况。
- 小提琴图:一种类似于箱线图的绘图,但是显示的是密度估计量。
比较两个变量所用的图表类型,例如散点图、六边形图和箱线图,完全可以通过条件(conditioning)这一概念扩展到多个变量。
数据和抽样分布
图中左侧表示总体,统计学假设总体遵循一个潜在的未知分布。图的右侧表示抽样数据及其经验分布,这是我们唯一可用的。要想根据左侧的图获得右侧的图,我们需要做抽样,图中用箭头表示。传统统计学关注的主要是图的左侧部分,即如何对总体运用一些基于强假设的理论。现代统计学已将关注点转移到图的右侧部分,因而也不再需要做出假设。
概念
随机抽样和样本偏差
样本是大型数据集的一个子集,统计学家通常将大型数据集称为总体。
- 样本:大型数据集的一个子集。
- 总体:一个大型数据集,或是一个构想的数据集。
- N(或 n):一般用 N 表示总体的规模,n 表示样本的规模。
- 随机抽样:从总体中随机抽取元素到样本中。
- 分层抽样:对总体分层,并在每层中做随机抽样。
- 简单随机抽样:在不对总体分层的情况下,做随机抽样所得到的样本。
- 样本偏差:样本对总体做出了错误的解释。
抽样可以是有放回的,即可以在每次抽取后将所抽取的观测值放回到总体中,并可被随后的抽取重新选中。抽样也可以是无放回的,即一个观测值一旦被抽取,就不会参与随后的抽取。
在统计学中,数据质量还涉及抽样的代表性这一概念。
偏差
统计偏差是一些系统性的测量误差或抽样误差,它是在测量或抽样过程中产生的。我们应严格区分由随机选取所导致的误差和由偏差所导致的误差。
选择偏差
选择偏差是指以一种可导致误导性或短暂性结论的方式,有选择性地选取数据的操作。选择偏差可能是有意而为之,也可能是无意识的。
- 数据窥探:为得到感兴趣的结果,在数据中做大量的查找。
- 大规模搜索效应:由于重复的数据建模,或使用大量的预测变量对数据建模所导致的偏差或非可重现性。
趋均值回归指对同一变量做连续测量时出现的一种现象,即在极端观测值后,会出现更趋向于中心的观测值。对极值给予特殊的关注和意义,会导致某种形式的选择偏差。
自助法
要估计统计量或模型参数的抽样分布,一个简单而有效的方法是,从样本本身中有放回地抽取更多的样本,并对每次重抽样重新计算统计量或模型。这一过程被称为自助法。自助法无须假设数据或抽样统计量符合正态分布。
- 自助样本(bootstrap sample);从观测数据集中做有放回的抽取而得到的样本。
- 重抽样:在观测数据中重复抽取样本的过程,其中包括自助过程和置换(混洗)过程。
自助法并不补偿小规模样本。它不创建新的数据,也不会填补已有数据集中的缺口。它只会告知我们,在从原始样本这样的总体中做抽取时,大量额外的样本所具有的行为。
有时重抽样这个词等同于自助法。在更多情况下,重抽样还包括置换过程。置换过程组合了多个样本,并且抽样可能是无放回的。但是在任何情况下,自助法都是指对观测数据集做有放回的抽样。
置信区间
要了解一个样本估计量中潜在的误差情况,除了使用之前介绍的频数表、直方图、箱线图和标准误差等方法外,还有一种方法是置信区间。
- 置信水平:以百分比表示的置信区间。该区间是从同一总体中以同一方式构建的,可以包含我们感兴趣的统计量。
- 区间端点:置信区间的两端。
很少有人会过于信任以单一数值呈现的估计量,即点估计。为了解决这一普遍性问题,我们可以使用一个范围而不是单一的值去表示估计量。统计抽样原理是置信区间的实现基础。
抽样分布
统计量的抽样分布指从同一总体中抽取多个样本时,一些样本统计量的分布情况。经典统计学主要关注如何从小样本推导更大总体的情况。
- 样本统计量:对抽取自大规模总体中的样本做计算,所得到的一些度量值。
- 数据分布:单个值在数据集中的频数分布。
- 抽样分布:一个样本统计量在多个样本或重抽样中的频数分布。
- 中心极限定理:当样本的规模增大时,抽样分布呈正态分布的趋势。
- 标准误差:多个样本间样本统计量的变异性(标准偏差)。不要与标准偏差混淆,后者指的是个体数据值间的变异性。
鉴于估计量或模型是基于某个样本的,因此其中可能存在误差,也可能会由于抽取样本的不同而有所差异。我们需要了解这种差异究竟如何,即我们的主要关注点在于抽样的变异性。
正态分布
呈钟形的正态分布是传统统计学中的一个标志性概念。事实上,由于样本统计量的分布通常呈现出正态分布的形状,这使得正态分布业已成为一种推导样本统计量近似分布的数学公式的强大工具。
- 误差:数据点与预测值或均值间的差异。
- 标准化:数据值减去均值,再除以标准偏差。
- z 分数:单个数据点标准化的结果。
- 标准正态分布:均值为 0、标准偏差为 1 的正态分布。
- QQ 图:对样本分布与正态分布间接近程度的可视化绘图。QQ 图对 z 分数从低到高进行排序,并将每个值的 z 分数绘制在 y 轴上。x 轴的单位是该值秩(rank)的正态分布所对应的分位数。由于数据是归一化的,所以单位的个数对应于数据值与均值间的距离是标准偏差的多少倍。如果数据点大体落在对角线上,那么可以近似地认为样本分布符合正态分布。
正态分布源于很多统计量在抽样分布中是正态分布的。即便如此,只有在经验概率分布或自助法分布不可用时,才会使用正态性假设作为最后一招。
在标准正态分布中,x 轴的单位为距离均值的标准偏差。为了使数据能够与标准正态分布做对比,我们需要将数据值减去均值,然后除以标准偏差。这一过程被称为归一化或标准化。
长尾分布
- 尾:一个频数分布的狭长部分,其中相对极值出现的频数很低。
- 偏斜:分布的一个尾部长于另一个尾部。
学生t分布
t 分布呈正态分布形状,但是钟形稍厚,尾部略长。t 分布广泛用于描述样本统计量的分布。样本均值的分布通常呈 t 分布形状。t 分布是一个分布家族,家族中的每个成员根据样本规模的不同而有所不同。样本的规模越大,t 分布就越趋向于正态分布形状。
- n:表示一个样本的规模。
- 自由度:自由度是一个参数,允许根据不同的样本规模、统计量和组数对 t 分布进行调整。
t 分布通常被称为学生 t 分布,因为它是 1908 年由格赛特(Gossett)以“学生”(Student)为作者名发表在期刊 Biometrika 上的。
二项分布
- 试验:一次输出离散值的事件,例如,一次硬币抛掷。
- 成功:一次试验的输出为我们感兴趣的结果。(1(相对于0))
- 二项:具有两个输出(是 / 否、0/1、二元)
- 二项试验:有两种输出的试验。(伯努利试验)
- 二项分布:在多次试验中(例如 x 次),成功次数的分布。(伯努利分布)
二项输出在建模中十分重要,因为它们表示了基本的决策情况,例如是否购买、是否点击、存活还是死亡等。
二项试验是一种具有两种可能结果的试验,其中一种结果的概率为 p,另一种结果的概率为 1−p。
当 n 很大并且 p 不接近于0(或1)时,二项分布可使用正态分布近似。
泊松分布及其相关分布
一些过程是根据一个给定的整体速率随机生成事件的。所生成的事件可能是随时间扩展的,例如某个网站的访问者情况、一个收费站的汽车到达情况等;也可能是散布于空间中的,例如每平方米纺织品上的缺陷情况、每百行代码中的拼写错误情况。
- lambda:单位时间内或单位空间中的事件发生率。
- 泊松分布:单位时间内或单位空间中事件数量的频数分布。
- 指数分布:在时间或距离上,从一个事件到下一个事件的频数分布。指数分布可以建模各次事件之间的时间分布情况,例如,网站访问的时间间隔,汽车抵达收费站的时间间隔。
- 韦伯分布:泛化版本的指数分布。韦伯分布允许事件发生的速率随时间变化。
韦伯分布:是指数分布的一种延伸,它通过指定形状参数 β,允许事件发生率产生变化。
统计实验与显著性检验
实验设计是统计学实践的基石,几乎所有的研究领域都要用到实验。实验设计的目标是设计出能确认或推翻某个假设的实验。
如果看到统计显著性、t 检验或 p 值等概念,这一般是在经典统计推断“流水线”的场景下,统计推断过程开始于某个假设,例如,“药物 A 要好于现有的标准药物”,是设计用于验证假设的,我们希望所设计的实验能得出结论性的结果。实验中会收集并分析数据,进而得出结论。推断(inference)一词反映了这样一个意图:将从有限数据集上得到的实验结果应用于更大的过程或总体。
概念
A/B测试
A/B 测试将实验分成两个组开展,进而确定两种处理、产品、过程等中较优的一个。在两组实验中,一般会有一组采用现有的标准处理,或者是不执行任何处理,称为对照组,而另一组称为实验组。实验中的一个典型假设是实验组要优于对照组。
- 处理:实验对象所接触的东西,例如药品、价格、Web 标题等。
- 实验组:执行特定处理的一组对象。
- 对照组:执行标准处理或不执行处理的一组对象。
- 随机化:随机地分配实验对象以进行处理的过程。
- 实验对象:接受处理者,例如 Web 访问者、病人等。
- 检验统计量:用于检验处理效果的度量。
在单盲研究中,实验对象本身并不知道自己接受的是处理 A 还是处理 B。如果对象知道自身所接受的处理,那么会对响应产生影响。双盲研究是指研究者和协助者(例如医学研究中的医生和护士)都不知道哪个对象接受了哪种处理。
假设检验
假设检验也称显著性检验,假设检验的目的是确定一个观测到的效果是否是由随机性(random chance)造成的。
- 零假设:完全归咎于偶然性的假设。事实上,我们希望能证明零假设是错误的,并证明 A 组和 B 组结果之间的差异要比偶然性可能导致的差异更大。
- 备择假设:与零假设相反,即实验者希望证实的假设。
- 单向检验:在假设检验中,只从一个方向上计数偶然性结果。
- 双向检验:在假设检验中,从正反两个方向上计数偶然性结果。
重抽样
在统计学中,重抽样是指从观测数据中反复地抽取数据值,目标是评估一个统计量中的随机变异性。
重抽样过程主要有两种类型,即自助法和置换检验。自助法用于评估一个估计量的可靠性;置换检验将两组或多组样本组合在一起,并将观测值随机地(或穷尽地)重新分配给重抽样,也称作随机化检验、随机置换检验、准确检验等。
显著性检验
统计显著性和p值
如果生成的结果超出了随机变异的范围,则我们称它是统计显著的。
- p 值:对于一个加入了零假设的偶然性模型,p 值指得到与观测结果一样不寻常或极端的结果的概率,表示随机模型生成的结果比观测结果更极端的频数。
- α 值:在实际结果的确是统计显著的情况下,α 值指偶然性结果必须超出的“不寻常性”概率的阈值。
- 第一类错误:错误地将一个由随机导致的效果归结为真。
- 第二类错误:错误地将一个为真的效果归结为由随机导致的。
针对P值,美国统计协会的声明指出了针对研究人员和期刊编辑的六项原则:
- p 值可以表示数据与指定统计模型间的不兼容程度。
- p 值并不能测量所研究的假设为真的概率,也不测量仅通过随机性生成数据的概率。
- 不应仅根据 p 值是否超过了给定的阈值,就得出一个科学结论,或做出一个商业或政策决定。
- 正确的推断需要具有全面的报告和完全的透明度。
- p 值(或统计显著性)并不测量效果的规模,也不测量结果的重要性。
- p 值本身并不能提供一种对模型或假设的很好量度。
t 检验
- 检验统计量:对我们所关注的差异或效果的度量。
- t 统计量:归一化的检验统计量。
- t 分布:一种用于比较所观测到的 t 统计量的参考分布。对于 t 检验,参考分布是从零假设生成的。
多重检验
如果我们能从足够多的视角去观察数据,并提出足够多的问题,几乎总是可以发现具有统计显著性的效果。
- 错误发现率:在多重检验中,犯第一类错误的比率。
- p 值校正:用于在同一数据上做多重检验。
- 过拟合:拟合了噪声。
方差分析
方差分析是一种检验多个组之间统计显著性差异的统计学方法。
- 两两对比:对于有多个组的情况,在两个组之间做假设检验(比如对均值)。
- 多项检验(omnibus test):一种可以测定多个组均值间方差的单一假设检验。
- 方差分解:从整体统计量中(例如,从整体均值、处理均值以及残差中),分离出单个值的贡献情况。
- F 统计量:一种归一化统计量,基于各组均值间的方差(即处理效果)与由于残差所导致的方差间的比率,用于衡量多个组均值间的差异是否会超过随机模型的预期。
- SS:sum of square(平方和)的简写,指与某一均值的偏差。
卡方检验
卡方检验适用于计数数据,它可以检验数据与预期分布的拟合程度。在统计实践中,卡方统计量的最常见用法是与 r×c 列联表一起使用,以评估对变量间独立性的零假设是否合理。
- 卡方统计量:观测数据偏离预期程度的量度。
- 期望值 / 期望:在某种假设(通常是零假设)下,我们期望数据能给出的结果。
多臂老虎机算法
多臂老虎机算法(multi-arm bandit algorithm)是一种检验方法,尤其适用于 Web 测试。
回归与预测
回归模型
统计学中最常见的目标可能就是回答下列问题:变量X(很多情况下是X1,…, Xp)与变量Y是否有关联?如果两者间有关联,那么关联的关系如何?是否可以使用这种关联关系去预测Y?
简单线性回归
简单线性回归用于建模两个变量变化幅度间的关系。相关性是衡量两个变量间相关情况的另一种方法。这两者之间的差别在于,相关性衡量的是两个变量的关联程度,而回归则量化了两个变量间关系的本质。
- 响应变量:想要预测的变量。(因变量、变量Y、目标、结果)
- 自变量:用于预测响应的变量。(自变量、变量X、特征、属性)
- 记录:一个表示特定个体或实例的向量,由因子和结果值组成。(行、案例、实例、示例)
- 截距:回归线的截距,即当X = 0时的预测值。(b0、β0)
- 回归系数:回归线的斜率。(斜率、b1、β1、参数估计值、权重)
- 拟合值:从回归线获得的估计值。(预测值)
- 残差:观测值和拟合值之间的差异。(误差)
- 最小二乘法:一种通过最小化残差的平方和而拟合回归的方法。残差值的平方和也称残差平方和(RSS),使得RSS最小化的方法为最小二乘法回归,或普通最小二乘法(OLS)回归。(普通最小二乘法)
Y = b0 + b1X 该公式表述为:“Y等于X乘以b1,再加上常数b0。”其中,我们称b0为截距”(或常量),b1为X的斜率。机器学习领域的人士习惯将Y称为目标,将X称为特征向量。
多元线性回归
- 均方根误差:回归均方误差的平方根,它是比较回归模型时使用最广泛的度量。(RMSE)
- 标准残差:与均方根误差的计算一样,只是根据自由度做了调整。(RSER)
- R方:可以被模型解释的变异的比例,值介于0到1之间。(决定系数、R2)
- t统计量:预测因子的系数,除以系数的标准误差。它提供了一种比较模型中变量重要性的度量。
- 加权回归:在回归中,记录具有不同的权重。
多项式回归和样条回归
- 多项式回归:在回归方程中添加了多项式项,例如平方项、三次方项等。
- 样条回归:使用一系列多项式片段去拟合一条平滑曲线。结点分隔样条片段的值。
- 广义加性模型:可以自动选择结点的样条模型。(GAM)
响应变量和预测变量之间的关系并非总是线性的。
预测
解释回归方程
- 外推法:将模型扩展到拟合所用的数据范围之外。回归模型不应外推到所使用的数据范围之外。回归模型仅对具有足够数据值的预测因子有效。
- 虚拟变量:二元的0/1变量,通过对因子数据重新编码得到,可用于回归模型或其他模型。
- 参考编码:统计学家最常使用的编码类型。它以因子的一层作为参考层,并将其他因子与参考层进行对比。(编码处理)
- 独热编码(one hot encoder):机器学习领域中常用的一种编码。它保留了所有的因子层。虽然该编码适用于部分机器学习算法,但并不适用于多元线性回归。
- 偏差编码:在编码中用于对比的并不是参考层,而是将每一层与整体均值进行对比。(总和对照(sum contrasts)编码)
- 相关变量:当预测变量高度相关时,难以解释单个回归系数。
- 多重共线性:当预测变量间存在完美的或近乎完美的相关性时,回归是不稳定的,或者说是不可能计算的。如果一个预测变量可以表示为其他变量的一种线性组合,就产生了完美的多重共线性问题。(共线性)
- 混淆变量:一种重要的预测变量。忽视该变量可导致回归方程给出伪关系。
- 主效应:预测变量和结果变量之间的关系,该关系独立于其他的变量。
- 交互作用:两个或两个以上预测变量和响应之间的相互依赖关系。
检验假设
- 标准残差:残差除以残差的标准误差。
- 离群值:距离其他记录(或预测结果)很远的记录(或结果值)。
- 强影响值(influential value):一个值或记录,其存在与否会使回归方程有很大差异。
- 杠杆:单个记录对回归方程的影响程度。(帽值(hat-value))
- 非正态残差:非正态分布的残差可能会导致一些对回归的技术需求失效。但在数据科学中,通常并不会关注该问题。
- 异方差性:在输出的部分范围中具有较高变异性的残差。这可能表明在回归方程中缺失了某个预测变量。
- 偏残差图:展示结果变量和单个预测变量之间关系的一种诊断图。基本理念是,将预测变量与响应变量间的关系独立出来,并考虑所有其他的预测变量。(变量添加图(added variable plot))
分类
方法
朴素贝叶斯方法
- 条件概率:在给定另一个事件(比如Y = i)的条件下,观测到某个事件(比如X = i)的概率,记作P(Xi| Yi)。
- 后验概率:在给定预测因子的情况下,出现某一结果的概率(后验概率不同于结果的先验概率,后者并未考虑预测因子的信息)。
朴素贝叶斯算法使用在给定输出情况下观测到预测因子值的概率,估计给定一组预测因子的值时观测到结果Y = i的概率。
判别分析
- 协方差:对一个变量相对于另一个变量的一致程度(幅度和方向类似)的度量。
- 判别函数:当应用于预测变量上时,该函数可以使类之间的分离度最大化。
- 判别权重:应用判别函数得到的分值,用于估计记录属于某个类的概率。
判别分析是最早提出的统计分类器。包含了很多种方法,其中最常用的是线性判别分析法(LDA)。
逻辑回归
- Logit函数:一种能将属于某个类的概率映射到±∞范围上(而不是0到1之间)的函数。(对数几率)
- 几率:“成功”(1)与“不成功”(0)之间的比率。
- 对数几率:转换后的模型(即线性模型)中的响应。该响应已被映射回概率值。
逻辑回归类似于多元线性回归,只是结果是二元的。它使用多种变换将问题转换成可以拟合线性模型的问题。逻辑回归也是一种结构化模型方法,而非以数据为中心的方法。这与判别分析一样,但是不同于K最近邻和朴素贝叶斯。逻辑回归的计算速度快,模型输出可以快速地对新数据打分
评估
评估
- 正确率(accuracy):正确分类的百分比(或比例)。
- 混淆矩阵:按预测分类和实际分类情况对记录分别计数,将计数结果以表格形式显示。例如,对于二元变量,使用的是2×2的表格。
- 灵敏度:在预测结果中,1被正确分类的百分比(或比例)。(召回率(recall))
- 特异性:在预测结果中,0被正确分类的百分比(或比例)。
- 准确率(precision):预测结果为1、真实值也为1的百分比(或比例)。
- ROC曲线:灵感度与特异性的绘图。
- 提升(lift):在不同截止概率的情况下,衡量模型在识别(相对罕见的)1上的有效性。
测量模型分类性能的一种简单方法是,计算预测正确的比例。
改进
- 欠采样:在分类模型中,使用更少的多数类记录。基本思想是,认为多数类的数据中存在很多冗余的记录。处理规模更小、更平衡的数据集,将有利于改进模型的性能,准备数据以及探索和实验模型也会更容易。(下采样)
- 过采样:在分类模型中,更多地使用稀有类记录。必要时可以使用自助法。(上采样)
- 上权重、下权重:在模型中,对稀有类赋予更大的权重,对多数类赋予更小的权重。
- 数据生成:类似于自助法,只是每个新的自助记录与原记录略有不同。
- z分数:对结果做归一化所生成的值。
- K:在最近邻计算中使用的近邻个数。
统计机器学习
K最近邻算法
- 找出K个具有相似特征(即具有相似的预测值)的记录。
- 对于分类,找出这些相似记录中的多数类,将其指定为新记录的类。
- 对于预测(也称为KNN回归),找出这些相似记录的均值,并将该均值作为新记录的预测值。
- 近邻:具有相似预测值的两个记录。
- 距离度量:以单一数值的形式,测量两个记录之间的距离。
K最近邻算法是一种简单的预测和分类技术,它不像回归那样需要拟合一个模型。但这并不意味着使用K最近邻算法不需要人工干涉。K最近邻算法的预测结果取决于特征的规模、相似性的测定方法以及K值的设置等因素。
决策树
-
递归分区(recursive partition):反复对数据进行划分和细分,目的是使每个最终细分内的结果尽可能同质。
-
拆分值(split value):一个预测变量值,它将一组记录分为两部分,使得一部分中的预测变量小于拆分值,而另一部分中的预测变量大于拆分值。
-
节点:在决策树中(或在一组相应的分支规则中),节点是拆分值的图形化表示(或规则表示)。
-
叶子:一组if-then规则的终点,或一个树分支的终点。在树中访问叶子的规则,构成了对树中一条记录的分类规则。
-
损失:在拆分过程的某一阶段中误分类的个数。损失越大,不纯度越高。
-
不纯度:表示在数据的一个细分中发现多个类混杂的程度。细分中混杂的类越多,该细分的不纯度就越高。(异质性/同质性、纯度)
-
剪枝:为了降低过拟合,对一棵完全长成树逐步剪枝的过程。
-
集成:使用一组模型给出预测。(模型平均)
-
Bagging:对数据使用自助法构建一组模型的通用方法。Bagging是bootstrap aggregating(自助法聚合)的缩写。(自助法聚合)
-
随机森林:使用决策树的一类自助法聚合估计。该算法不仅对记录做抽样,而且也对变量做抽样。(自助法聚合决策树)
-
变量重要性:对预测变量在模型性能中重要性的测量。
-
Boosting:在拟合一组模型时所使用的一种通用方法。Boosting在每轮连续的拟合中,会对具有更大残差的记录赋予更大的权重。
-
Adaboost:Boosting算法的一种早期实现,它根据残差的情况对数据重新加权。
-
梯度提升:一种更通用的Boosting算法。它将问题转化为代价函数最小化的问题。
-
随机梯度提升(SGD):最常用的Boosting算法。它在每轮拟合中加入了对记录和数据列的重抽样。
-
正则化:通过在代价函数中对模型参数的数量添加惩罚项,避免产生过拟合。
-
超参数:在拟合算法之前就需要设定的参数。
无监督学习
指的是无须使用已标记数据(即输出已知的数据)训练模型,便可以抽取数据内涵的统计学方法。
主成分分析
- 主成分:预测变量的一种线性组合。
- 载荷:将预测因子转换为成分的过程中所使用的权重值。(权重)
- 陡坡图:一种展示各成分方差的绘图,图中显示了各成分的相对重要性。
主成分分析(PCA)就是一种能够发现数值型变量共变方式的技术。基本理念是,将多个数值型预测变量组合成一组规模较小的变量,它们是原始变量的加权线性组合。所形成的规模较小的一组变量被称为主成分。主成分可以“解释”完整变量集的大部分变异性,同时降低数据维度。在构建主成分中所使用的权重,体现了原始变量对新的主成分的相对贡献。
K-Means聚类
聚类是一种数据分组技术,使得组内记录彼此相似。聚类的一个目标是识别数据中重要且有意义的组。
- 类(cluster):一组类似的记录。
- 类均值:表示类内记录变量均值的向量。
- K:类的个数。
层次聚类
层次聚类的灵活性是有一定代价的,它不能很好地扩展到具有数百万条记录的大规模数据集上。即便是只有数万条记录的中等规模数据集,层次聚类可能也需要大量的计算资源。
笔记摘录于《面向数据科学家的实用统计学》