实践判断与决策
针对现实中可能出现的情景和问题,我们要如何做?
零假设
一家制药公司正在研制COVIT-19疫苗。他们在60人身上测试疫苗的有效性。其中30人接种了placbo疫苗,另外30人接种了实验性疫苗。这项试验的参与者不知道他们是接受了安慰剂还是疫苗。试验结果每周收集一次,历时三个月。该公司采用零假设来确定疫苗是否有效。关于 零假设,公司希望实现什么目标?
Answer:
他们希望找到推翻零假设的证据。
缺失值的处理
公司(客户)是向选定客户提供贷款的银行。客户希望知道是否有可能根据现有的客户数据预测客户是否能够及时偿还贷款。客户为您提供一组包含客户数据的结构化数据。此数据集中的一个字段包含客户的“出生日期”(DOB)。假设您发现DOB对预测任务有价值。进一步假设您还发现,在12.3%的情况下,字段留空。您将如何处理包含此类缺失值的记录?
我们可以采取的行为有:
- 用所有其他记录的平均DOB替换缺失的DOB。
- 将缺失值视为一种信息特性,并在对数据建模之前用一个特殊值来表示它们。
- 用平均值或中值替换字段。
- 用所有其他记录的中位数替代了缺失的DOB。
- 保留所有记录,然后选择一种建模方法,该方法可以处理包含缺失值的输入。
- 对数据建模之前删除DOB缺失的条目。
Answer:
我们需要将缺失值视为一种信息特性,并在对数据建模之前用一个特殊值来表示它们。
将类别转换为数字-1
假设在完成探索性数据分析之后,您希望通过在给定的数据集上部署K-means来识别五个集群。通过使用欧几里德距离度量来计算数据向量和质心之间的距离,可以部署K-means。数据集包含五列。其中四列包含数值,而第五列描述郊区的人口密度,并包含分类值“高密度”、“中密度”和“低密度”。哪一个行为最适合通过K-means对数据进行聚类?
我们可以采取的行为有:
- 按“原样”处理数据(保持数据集不变)
- 在使用K-means进行处理之前,删除所有不包含数值的列。
- 基于字长或基于每对类别共同拥有的字符数,为类别值定义一个相似性度量。
- 在用K-means进行处理之前,通过使用值0表示“低密度”,值1表示“中等密度”,值2表示“高密度”,将分类数据转换为数字。
- 在使用K-均值进行处理之前,通过对每个分类值使用唯一的随机选择值将分类数据转换为数字。
- 在K-均值处理之前,利用出现频率将分类数据转换为数值。因此,例如,如果50%的数据记录包含值“low density”,30%包含值“medium density”,20%包含值“high density”,则用数值50替换“low density”,用值30替换“medium density”,用值20替换“high density”。
- 在用K-means进行处理之前,通过使用表示“低密度”的向量(1,0,0)、表示“中等密度”的向量(0,1,0)和表示“高密度”的向量(0,0,1),将分类数据转换为数字向量。
Answer:
这类情况的重点是这三个分类的关系
正确的做法是
用值0表示“低密度”,值1表示“中等密度”,值2表示“高密度”,将分类数据转换为数字。
0,1,2可以表现这三种分类从低密度到高密度的变化
// 按照情况,还可以用-1,0,1来表示其他分类的数据
将类别转换为数字-2
假设在完成探索性数据分析之后,您希望通过在给定的数据集上部署K-means来识别五个集群。通过使用欧几里德距离度量来计算数据向量和质心之间的距离,可以部署K-means。数据集包含五列。其中四列包含数值,而第五列表示internet协议,并包含分类值“TCP”、“UDP”和“ICMP”。哪一个行为最适合通过K-means对数据进行聚类?
我们可以采取的行为有:
- 按“原样”处理数据(保持数据集不变)
- 在使用K-means进行处理之前,请删除所有不包含数值的列。
- 基于字长或基于每对类别共同拥有的字符数,为类别值定义一个相似性度量。
- 在使用K-means进行处理之前,通过使用值0表示“TCP”、值1表示“UDP”、值2表示“ICMP”,将分类数据转换为数字。
- 在使用K-均值进行处理之前,通过对每个分类值使用唯一的随机选择值将分类数据转换为数字。
- 在K-均值处理之前,利用出现频率将分类数据转换为数值。因此,例如,如果50%的数据记录包含值“TCP”,30%包含值“UDP”,20%包含值“ICMP”,则用数值50替换“TCP”,用值30替换“UDP”,用值20替换“ICMP”。
- 在通过K-means进行处理之前,通过使用向量(1,0,0)表示“TCP”、向量(0,1,0)表示“UDP”、向量(0,0,1)表示“ICMP”,将分类数据转换为数字向量。
Answer:
这类情况的重点还是这三个分类的关系。
正确的做法是
通过使用向量(1,0,0)表示“TCP”、向量(0,1,0)表示“UDP”、向量(0,0,1)表示“ICMP”,将分类数据转换为数字向量。
这三个协议类别之间并不存在上面那种渐进的关系,因此使用不同的三维向量是表达他们最合适的做法。
层次聚类与分区聚类
为什么在大数据分析中,分区聚类比层次聚类更合适?
Answer:
因为层次聚类算法要求数据集很小,在这里是大数据分析,数据集显然并不小,因此分区聚类更合适。
文本分析中常见词的处理
在文本分析中,出现在每个文档中的单词很重要吗?
Answer:
不一定重要也不一定不重要。
答案取决于应用程序、语料库或处理方法。
我们要结合自己的知识和实际情况来进行判断。
分类器的选择
哪一个分类器可以处理有缺失值的测试样本?
- Logistic regression
- Decision Trees
- Naive Bayes
- Multi-layer perceptron (neural network)
Answer:
Naive Bayes
图像识别判断
我们希望创建一个深度学习模型,以便为智能手机开发以下应用程序:
- 检测图像中描绘植物或水果的部分。为了成功地建立一个合适的深度学习模型,这项任务将需要一组带什么标签的图像?
- 在描绘植物或水果的图像中检测所描绘的植物或水果是否可食用或不可食用。为了成功地建立一个合适的深度学习模型,这项任务将需要一组带什么标签的图像?
- 同一株植物的两张不同时间(即间隔几天)拍摄的图像中检测该植物的生长速度。为了成功地建立一个合适的深度学习模型,这项任务将需要一组标有什么标签的图像?
Answer:
图像有三种级别,分别是black and white黑白图,grayscale灰度图和full color全彩图。
在这里我们需要使用最低质量的图来满足要求以减轻计算成本同时也要保证程序的准确性和鲁棒性。
因此
1: full color全彩图
2: full color全彩图
3: grayscale灰度图
卷积神经网络的学习算法
以下哪一个参数是由卷积神经网络的学习算法更新的?
- pooling filter的大小。
- The size of the kernel in the convolutional layer (size of the filter)。
- 网络权重。
- 层数。
- The amount of pixels by which the kernel in the convolutional layer is shifted (stride).
- 卷积层内核中的值。
- 激活方程。
- The amount of pixels by which the filter in the pooling layer is shifted (stride).
Answer:
这里其实考察了两个点,一个是对 卷积神经网络概念和各个参数的理解,另一个是对建模程序的理解。
这个题的关键是参数是由学习算法更新的,而不是你手动修改的参数。
因此答案就是你在设置完参数后程序自己更新的参数:
- 网络权重。
- 卷积层中核中的值。
时间序列ARIMA建模
下列哪一项不对应于平稳时间序列?
- 一种时间序列,其平均值在给定的时间段内保持不变。
- 一种时间序列,其中两个点之间的协方差仅取决于这些点之间的时差(lag)。
- 时间序列具有线性趋势。
- 时间序列具有非线性趋势。
- 时间序列在给定时间段内方差保持不变。
- 受随机的、正态分布的噪声影响的时间序列,其中心为1.08,并且具有恒定的方差。
Answer:
这里其实考察的平稳时间序列的概念,我们可以根据概念轻松的选出对的选项,排除掉这些对的选项,就是这个问题的答案了。
在这里,与平稳时间序列无关的是3和4,因为平稳时间序列是没有趋势的,无论是线性趋势还是非线性趋势
分布式存储和处理-1
在大数据分析中,分布式存储和处理(如Apache Hadoop实现)的目的是什么?
Answer:
- 能够存储和检索比一台计算机能够处理的数据量大的数据。
- 能够处理一台计算机处理不了的数据量。
- 能够在一组计算机上分布计算并并行执行。
分布式存储和处理-2
您的团队中的一个成员是Hadoop的新手,他想知道如何最好地访问数据。您将了解到,该团队成员具有丰富的SQL知识和数据库经验。您推荐哪种查询接口?
- Hive
- Howl
- HBase
- Pig
- Python
- R or Rstudio
Answer:
这里要对每一种接口有一个简单的了解
Hive是对熟悉SQL人员最友好的。