一、说明
作为人工智能的工程师,必须明白基本的数学应用,面试的时候难免也会遇到这些提问,那么提问者如何设计面试问题,遇到这些问题如何回答,本篇搜集了统计相关的四十个问题,供大家参考。
二、介绍
正如 Josh Wills 曾经说过的,“数据科学家是比任何程序员都更擅长统计、比任何统计学家都更擅长编程的人”。
统计学是数据科学中处理数据及其分析的基本工具。它提供工具和方法,帮助数据科学家获得见解并解释大量数据。仅仅掌握数据科学工具和语言是不够的。您还应该对某些核心统计概念和基础知识有深入的了解。考虑到这一点,这里列出了 40 个最常见的统计数据科学面试问题和答案。它将帮助您刷新对统计学关键方面的记忆,并帮助您为涉及数据科学和机器学习的求职面试做好准备。
话虽如此,让我们开始吧!
三、统计学面试问题及答案
1. 总体和样本有什么区别?
📍 总体代表正在研究的所有项目的全部。
📍 样本是选定的代表整个群体的有限子集。选定样本通常是因为群体太大或研究成本太高。
人口数据的一个例子是人口普查,样本的一个很好的例子是调查。
2. 推断统计和描述统计有什么区别?
📍 描述性统计数据描述了一些样本或总体。
📍推论统计试图从某个样本推断出更大的总体。
3. 什么是定量数据和定性数据?
📍 定量数据是值或计数的度量,以数字表示。定量数据是指数值数据(例如,多少、多少或多久一次)。
📍 定性数据是“类型”的度量,可以用名称、符号或数字代码表示。定性数据也称为分类数据。
4. 标准差是什么意思?
标准差是一种统计数据,用于测量数据集相对于其平均值的离散度。它是数据集中的平均变异量。它告诉您,平均而言,每个值与平均值的差距有多大。
标准差较大意味着数值通常远离平均值,而标准差较小则表示数值聚集在平均值附近。
标准差是通过确定每个数据点相对于平均值的偏差来计算方差的平方根。
5.长格式和宽格式数据有什么区别?
数据集可以以两种不同的格式写入:宽和长。
📍 宽格式是指每个数据点都有一行,并有多列来保存各种属性的值。
📍 长格式是指对于每个数据点,我们有与属性数一样多的行,并且每行包含给定数据点的特定属性的值。
6. 举一个例子来说明中位数比平均数更能衡量
当数据值分布不均匀或存在明显的异常值时,中位数比平均数更能衡量集中趋势。
7. 如何计算所需的样本量?
计算调查或实验所需的样本量:
📍确定人口规模:首先要确定目标人群的总数。如果你要处理的人口数量较大,你可以根据几个有根据的猜测来估算总人口数。
📍确定误差幅度: 也称为“置信区间”。误差幅度表示您愿意允许样本平均值与总体平均值之间存在多大的差异。
📍选择置信度:您的置信度表明您对实际平均值落在所选误差范围内的信心程度。最常见的置信度为 90%、95% 和 99%。您指定的置信度与 z 分数相对应。
三个最常见的置信水平的 Z 分数是:
-
90% = 1.645
-
95% = 1.96
-
99% = 2.576
📍选择偏差标准:接下来,您需要确定偏差标准,即您期望在收集的信息中看到的方差水平。如果您不知道预期的方差有多大,0.5 的标准差通常是一个安全的选择,这将确保您的样本量足够大。
📍计算样本量:最后,您可以使用这些值来计算样本量。您可以使用公式或使用在线计算器的样本量来执行此操作。
8. 统计学中抽样的类型有哪些?
统计学中数据采样的四种主要类型是:
📍简单随机抽样:此方法涉及纯随机划分。每个个体被选为样本一部分的概率相同。
📍集群抽样:这种方法涉及将整个人口划分为集群。根据性别、年龄和位置等人口统计参数识别集群并将其纳入样本。
📍分层抽样:这种方法涉及将人群划分为代表整个人群的独特群体。在抽样时,可以组织这些组,然后分别从每个组中抽取样本。
📍系统抽样:这种抽样方法涉及根据随机起点从较大的样本中选择样本成员,但有一个固定的周期性间隔,称为抽样间隔。抽样间隔是通过将总体除以所需样本量来计算的。这种类型的抽样方法具有预定义的范围,因此耗时最少。
9. 贝塞尔校正是什么?
在统计学中,贝塞尔校正是在几个公式中使用 n-1 代替 n,包括样本方差和标准差,其中 n 是样本中的观测值数量。此方法可校正总体方差估计中的偏差。它还可部分校正总体标准差估计中的偏差,从而提供更准确的结果。
10. 你对“正态分布”这个术语如何理解?
正态分布,又称高斯分布,是一种钟形频率分布曲线。正态分布中的大多数数据值倾向于聚集在平均值附近。
11. 正态性假设是什么?
这种正态性假设表明,如果从总体中收集许多独立的随机样本,并计算出一些感兴趣的值(比如样本均值),然后创建直方图来直观地显示样本均值的分布,则应该观察到正态分布。
12. 如何将正态分布转换为标准正态分布?
标准正态分布,也称为 z 分布,是一种特殊的正态分布,其中平均值等于 0,标准差等于 1。
任何非标准正态分布都可以通过将每个数据值 x 转换为 z 分数来实现标准化。
使用以下公式将点 x 从正态分布转换为 z 分数:
z = (x-µ) / σ
13.什么是左偏分布和右偏分布?
偏度是描述分布对称性的一种方法。
📍 左偏(负偏)分布是指左尾比右尾长的分布。对于这种分布,平均值 < 中位数 < 众数。
📍 类似地,右偏(正偏)分布是指右尾比左尾长。对于这种分布,平均值 > 中位数 > 众数。
14. 正态分布的一些属性是什么?
正态分布的一些属性如下:
📍单峰:正态分布只有一个峰值。(即一种模式)
📍对称:正态分布围绕其中心完全对称。(即中心的右侧是左侧的镜像)
📍 平均值、众数和中位数都位于中心(即都相等)
📍渐近:正态分布是连续的,尾部是渐近的。曲线接近 x 轴,但永远不会接触。
15.二项分布公式是什么?
二项分布公式适用于任何随机变量 X,如下所示;
P(x; n, p) = nCx * px (1 - p)n - x
在哪里:
-
n = 试验次数
-
x = 0, 1, 2, ...
-
p = 单次试验成功的概率
-
q = 1 - p = 单个试验失败的概率
16.二项分布必须满足什么标准?
二项分布必须满足的 4 个标准是:
📍 试验次数是固定的。
📍 每次试验的结果都是相互独立的。
📍 每条轨迹代表两种结果之一(“成功”或“失败”)。
📍 在所有试验中,“成功”的概率 p 是相同的。
17.什么是异常值?
离群值是与数据集中其他数据点有显著差异的数据点。离群值可能是由于测量中的变异性造成的,也可能表示存在实验误差。
异常值会极大地影响统计分析并扭曲任何假设检验的结果。
仔细识别数据集中的潜在异常值并适当处理它们以获得准确的结果非常重要。
18. 提及筛选数据集中异常值的方法。
📍 在使用更复杂的方法之前,检查是否需要调查某些数据点的一个简单方法是排序方法。
可以对数据中的值从低到高进行排序,然后扫描极低值或极高值。
📍 可视化(例如箱线图)是一种有用的方法,可以一目了然地查看数据分布并检测异常值。此图表突出显示统计信息,例如数据的最小值和最大值(范围)、中位数和四分位距。在查看箱线图时,异常值是箱线图晶须之外的数据点。
📍一种常用方法是四分位距法。如果数据集两端的值很少,但你不确定其中是否有值可以算作异常值,则此方法很有用。
四分位距 (IQR) 也称为中位数,表示数据集中间一半的范围。IQR 可用于在数据周围创建“围栏”,然后可以将异常值定义为大于上围栏或小于下围栏的任何值。
要使用 IQR 方法:
-
将数据从低到高排序
-
确定第一四分位数(Q1)、中位数和第三四分位数(Q3)。
-
计算 IQR;IQR = Q3 – Q1
-
计算上围栏;Q3 + (1.5 * IQR)和下围栏;Q1 - (1.5 * IQR)
-
使用围栏突出显示任何异常值(所有超出围栏的值)。
📍 识别异常值的另一种方法是使用 Z 分数。Z 分数就是某个数据点与平均值之间的标准差。要计算 z 分数,请使用公式z = (x-µ) / σ
- 如果 z 分数为正,则数据点高于平均值。
- 如果 z 分数为负数,则数据点低于平均值。
- 如果 z 分数接近于零,则数据点接近平均值。
- 如果 z 分数高于或低于 3(假设 z 分数 = 3 被视为设置限制的截止值),则它是一个异常值,并且该数据点被视为不寻常。
筛选异常值的其他方法包括孤立森林和 DBScan 聚类。
19. 采样过程中可能会遇到哪些类型的偏差?
抽样偏差是指在调查或调查过程中样本不能代表目标人群。抽样过程中可能遇到的三个主要问题是:
📍选择偏差:它涉及以非随机的方式选择单个或分组数据。
📍覆盖不足偏见:当某些人口成员在样本中代表性不足时,就会出现这种偏见。
📍当样本集中于“幸存”或现有的观察结果而忽略那些已经不复存在的观察结果时,就会发生幸存者偏差 。这可能导致以多种不同方式得出错误结论。
20. 内联器 (inliner) 的含义是什么?
内点是指位于其他观测值的一般分布范围内但属于错误的数据值。内点很难与正常数据值区分开来,因此有时很难找到和纠正。
异常值的一个例子可能是以错误单位记录的值。
21.什么是假设检验?
假设检验是一种统计推断,它使用样本数据来得出有关总体数据的结论。
在进行测试之前,需要对总体参数做出一个假设。这个假设称为零假设,用 H0 表示。然后定义一个与零假设在逻辑上相反的备择假设(用 Ha 表示)。
假设检验程序涉及使用样本数据来确定是否应拒绝 H0。接受备择假设 (Ha) 是在拒绝原假设 (H0) 之后。
22. 假设检验中的 p 值是什么?
p 值是一个数字,它描述当零假设 (H0) 为真时找到观察到的结果或更极端结果的概率。
P 值用于假设检验,帮助决定是否拒绝原假设。P 值越小,拒绝原假设的证据越强。
23. 何时应使用 t 检验,何时应使用 z 检验?
📍T 检验用于询问两组平均值之间的差异是否不太可能因随机因素而发生。它通常用于处理样本量有限(n < 30)的问题。
如果已知总体标准差,样本大小小于或等于 30,或者总体标准差未知,则使用 T 检验。
📍另一方面,Z 检验将样本与确定的总体进行比较,通常用于处理与大样本有关的问题(即 n > 30)。
一般来说,当已知总体的标准差,且样本量超过 30 时,应该使用 Z 检验。
24. 单尾和双尾假设检验有什么区别?
📍 单尾检验允许在一个方向上产生影响。此时,关键区域仅位于一个尾部。
📍双尾检验测试两个方向(正面和负面)产生影响的可能性。此处,关键区域是两个尾部之一。
25. I 型错误和 II 型错误有什么区别?
📍 当总体中为真的零假设被拒绝时,就会发生 I 类错误。这也称为假阳性。
📍 当总体中错误的零假设未能被拒绝时,就会发生 II 类错误。这也被称为假阴性。
26.什么是中心极限定理?
中心极限定理(CLT) 指出,如果从一个方差水平有限的总体中抽样出足够大的样本量,则无论总体是否呈正态分布,平均值的抽样分布都将呈正态分布。
27. 中心极限定理要成立,必须满足哪些一般条件?
中心极限定理指出,在以下条件下,均值的抽样分布将始终遵循正态分布:
📍样本量足够大(即样本量为n≥30)。
📍 样本是独立同分布的随机变量。
📍 总体分布具有有限方差。
28. 统计学中的相关性和协方差是什么?
📍 相关性表示两个变量之间的相关程度。两个变量之间的相关值范围从-1 到 +1。
-1 值表示高度负相关,即如果一个变量的值增加,则另一个变量的值将减少。同样,+1 表示正相关,即一个变量的增加会导致另一个变量的增加。
而 0 表示没有相关性。
📍 另一方面,协方差是一种度量,表示一对随机变量相互变化的程度。数字越大,表示依赖性越高。
29. 点估计和置信区间估计有什么区别?
📍 点估计给出一个单一值作为总体参数的估计值。例如,样本标准差是总体标准差的点估计值。
📍 置信区间估计给出了可能包含总体参数的一系列值。它是最常见的区间估计类型,因为它告诉我们该区间包含总体参数的可能性。
30. 请说出标准误差和误差幅度之间的关系?
随着标准误差的增加,误差幅度也会增加。
可以使用标准误差通过以下公式计算误差幅度:
误差幅度=临界值*样本标准误差
31. 你如何定义峰度?
峰度是指分布尾部的值与分布中心的差异程度。
使用峰度检测数据分布中的异常值。峰度越高,数据中的异常值数量越多。
32. 不包含总体参数的置信区间的比例是多少?
Alpha (α) 是置信区间中不包含总体参数的部分。
α = 1 – CL = 置信区间不包括总体参数的概率。
1 – α = CL = 总体参数位于区间内的概率
例如,如果置信水平 (CL) 为 95%,则α = 1 – 0.95,或 α = 0.05。
33.统计学中的大数定律是什么?
根据统计学中的大数定律,试验次数的增加将导致结果平均值成正比例增加,成为期望值。
例如,抛一枚公平硬币,掷出正面的概率在抛 100,000 次后接近 0.5,而在抛 50 次后则接近 0.5。
34.A/B 测试的目标是什么?
A/B 测试是统计假设检验。它是一种根据样本统计数据估计总体参数的决策分析方法。
目标通常是识别网页的任何变化,以最大化或增加感兴趣的结果。A/B 测试是一种很好的方法,可以找出最适合您业务的在线促销和营销策略。
35. 你对敏感性和特异性如何理解?
📍敏感度是衡量被预测为阳性(或真正阳性)的实际阳性病例比例的指标。
📍特异性是衡量被预测为阴性(或真阴性)的实际阴性病例比例的指标。
敏感性和特异性的计算非常简单;
36.什么是重采样,重采样的常见方法有哪些?
重抽样涉及从原始数据样本中随机选择替换的案例,使得抽取的样本中的每个数字都有几个与原始数据样本相似的案例。
两种常见的重采样方法是:
- 自举和正态重采样
- 交叉验证
37.什么是线性回归?
在统计学中,线性回归是一种用于建模一个或多个预测变量(X)与一个结果变量(y)之间关系的方法。
如果预测变量只有一个,则称为简单线性回归。如果预测变量不止一个,则称为多元线性回归。
38. 线性回归需要什么假设?
线性回归有四个关键假设:
📍线性关系: X 与 Y 的平均值之间存在线性关系。
📍独立性:观察彼此独立。
📍正态性: Y 沿 X 的分布应为正态分布。
📍同方差性:对于 X 的任何值,结果或响应变量的变化都是相同的。
39.什么是ROC曲线?
接收者操作特征 (ROC) 曲线是分类模型在不同阈值下的性能的图形表示。
该曲线绘制了不同分类阈值下的真实阳性率(TPR)与假 阳性率(FPR) 。
40.什么是成本函数?
成本函数是衡量机器学习模型针对给定数据集的性能的重要参数。
它衡量模型在估计输入和输出参数之间的关系时有多错误。
四、结论
本文讨论了数据科学家为什么应该掌握统计学以及一些重要且常见的统计数据科学面试问题和答案。
总结一下,本文的主要内容如下:
- 我们了解了抽样、不同类型的抽样以及如何计算所需的样本量。
- 我们讨论了集中趋势和概率分布。
- 我们讨论了变量之间的关系以及协方差和相关性之间的区别。
- 我们涵盖了假设检验和 P 值,并讨论了何时使用 T 检验和 Z 检验。
- 我们讨论了回归和线性回归的假设。