大数据分析师理论知识解析(Part.1)

一. Apriori算法使用什么指标筛选项目集?

A. 交易编号 B. 最小支持度 C. 最小信赖度 D. 购买数量

解析: Apriori算法是一种关联规则算法,Apriori算法首先从项目集中找出所有的频繁项集(通过最小支持度筛选),再从频繁项集中找出符合最小置信度的项集,最终便得到有强规则的项集。

Apriori算法的介绍


二. SQL语言中,删除一个表中的所有数据,但保留表结构的命令?

A. DELETE B. DROP C. CLEAR D. REMOVE

解析:

# DELETE 删除的是表中的数据,不会改变表结构
DELETE table 表名
DELETE table 表名 where 条件

# DROP 删除的是索引、表和数据库,因此会改变表结构
ALTER table 表名 drop 字段
DROP table 表名

# SQL中没有CLEAR命令!

# REMOVE 删除的是数据库文件
ALTER database 数据库名

需要注意的是,TRUNCATE命令同样是删除表中数据且保留表结构,与DELETE命令一样,区别在于TRUNCATE语句是一种快速、无日志记录的方法,TRUNCATE语句速度更快,并且使用更少的系统资源和事务日志资源。


三. 变量的量纲会对以下哪种方法有影响?

A. 方差分析 B. 回归分析 C. 聚类分析 D. 主成分分析

解析:
如下图中左上方所示的a,b,c,d四个样本,在x,y轴坐标不同比例的缩放变换下做聚类分析,可得到完全不同的效果。当x轴的量纲压缩至0.2倍时,聚类结果为a,b为一类,c,d为另一类(如右上图所示);而当y轴的量纲压缩至0.2倍时,聚类结果为a,c为一类,b,d为另一类(如左下图所示)。
在这里插入图片描述消除量纲的方法有归一化、标准化等。


四. 分类算法就是按照某种标准给对象贴标签,再根据标签来归类,以下属于分类算法的是?

A. DBSCAN B. C4.5 C. K-mean D. EM

解析:
DBSCAN算法为聚类算法;
C4.5算法用于产生决策树,而决策树可以被用作有监督分类,因此C4.5属于分类算法;
K-mean算法为聚类算法;
EM算法(Expectation-maximization)也称期望最大化算法,用于无监督的求解含有隐变量的情况下,概率模型参数的极大似然估计或极大后验估计,例如求解混合高斯模型GMM中的参数,可用于分类问题,因此EM算法可视为无监督分类算法。
(注:根据题干可知,本题问的是有监督分类算法,因此EM算法不符合)


五. 分析顾客的消费行为,以便有针对性的向其推荐感兴趣的服务,属于什么问题?

A. 关联规则挖掘 B. 分类与回归 C. 聚类分析 D. 时序预测

解析:
关联规则挖掘:
沃尔玛经典营销案例“啤酒与‎‎尿布”,一些年轻的父亲在去超市给孩子买尿布的时候,会顺便给自己买点啤酒,超市发现这个规律之后,就把啤酒和尿布的货架放在一起,这次改动明显增加了超市的销售额。这个案例中,啤酒和尿布两者之间就存在着关联规则。关联规则挖掘可用于发现大量顾客的消费行为数据中商品之间有趣的关联,从而有针对性的向顾客推荐感兴趣的服务或商品。🍺


六. 关联规则的评价指标?

A. 均方误差、均方根误差 B. Kappa统计、显著性验证 C. 支持度、置信度 D. 平均绝对误差、相对误差

解析:无


七. 回归分析首要解决的问题是?

A. 确定解释变量和被解释变量 B. 确定回归模型 C. 建立回归方程 D. 进行检验

解析:
回归分析的步骤:
step1: 确定解释变量X和被解释变量Y;
step2: 确定回归模型,如逻辑、线性、多项式回归等模型;
step3: 建立回归方程,求出合理的回归系数;
step4: 进行检验,对求得的回归方程的可信度进行检验;


八. 聚类方法中,哪个方法需要指定聚类个数?

A. 层次聚类 B. K-Mean聚类 C. 基于密度的聚类 D. 基于网格的聚类

解析:
层次聚类的步骤:
Step1: 每一个样本点视为一个簇;
Step2: 计算各个簇之间的距离,最近的两个簇聚合成一个新簇;
(常用average-linkage算法计算簇之间的距离,即计算两个cluster各自数据点的两两距离的平均值)
Step3: 重复以上过程直至最后只有一簇。
(层次聚类可从 N 类到 1 类逐级地进行类别划分。在极端情况下,最多可以分成 N 类,即每个样本为一类,最少可以分成一类,即所有样本为一类,但是层次聚类在计算时并不需要指定聚类个数)
在这里插入图片描述

K-mean聚类的步骤:
Step1: 任取k个样本点作为k个簇的初始中心;
Step2: 对每一个样本点,计算它们与k个中心的距离,把它归入距离最小的中心所在的簇;
Step3: 等到所有的样本点归类完毕,重新计算k个簇的中心;
Step4: 重复以上过程直至样本点归入的簇不再变动。
(计算聚类时必须指定K个族类)
在这里插入图片描述
基于密度聚类的步骤:
DBSCAN是一种经典的基于密度聚类的算法,以DBSCAN算法为例。
Step1: 任意选取一个点,找到与该点距离≤ eps的所有点。若距起始点的距离在 eps 之内的数据点个数小于 min_samples,则被标记为噪声。如果距离在 eps 之内的数据点个数大于 min_samples,则被标记为核心样本,并被分配一个新的簇标签。
Step2: 访问该点的所有邻居(在距离 eps 以内)。若它们还没有被分配一个簇,那么就将刚刚创建的新的簇标签分配给它们。如果它们是核心样本,那么就依次访问其邻居,以此类推。簇逐渐增大,直到在簇的 eps 距离内没有更多的核心样本为止。
Step3: 选取另一个尚未被访问过的点,并重复相同的过程。
(基于密度聚类无需指定聚类的个数,且最终簇的个数不确定)
在这里插入图片描述

基于网格的聚类:
典型的基于网格聚类方法有STING、CLIQUE、WaveCluster等算法,这些算法用不同的网格划分方法,将数据空间划分成为有限个单元的网格结构,并对网格数据结构进行了不同的处理,但核心步骤是相同的:
Step1: 划分网格
Step2: 使用网格单元内数据的统计信息对数据进行压缩表达
Step3: 基于这些统计信息判断高密度网格单元
Step4: 最后将相连的高密度网格单元识别为簇
(基于网格的聚类无需指定聚类的个数,且最终簇的个数不确定)


九. 开始将N个样品各自作为一类,并规定样本之间的距离和类与类之间的距离,然后将距离最近的两类合并成为一个新类,计算新类与其他类的距离,重复进行两个最近类的合并,每次减少一类,直至所有的样本合并为一类,该方法叫什么?

A. K-mean B. SOM聚类 C. 系统聚类 D. 有序聚类

解析:
根据题干描述,可知该分类方法为层次聚类,层次聚类又称系统聚类(详见第八题中对层次聚类的解析)。

SOM聚类:SOM(Self Organizing Maps)自组织映射神经网络聚类算法;

学习资料:SOM聚类算法


十. 如果数据量较大,哪种聚类算法比较合适?

A. 系统聚类 B. 快速聚类(k-means) C. A、B都合适 D. A、B都不合适

解析:
系统聚类(层次聚类),首先需要将每一个样本点视为一个簇,并计算各个簇之间的距离,假设有N个样本点,因此计算N个样本点之间的距离共需计算次数为:
∑ n = 1 N − 1 n = 1 2 ( N 2 − N ) \sum_{n=1}^{N-1} n=\frac{1}{2}\left(N^{2}-N\right) n=1N1n=21(N2N)
共迭代计算 l o g 2 N log_{2}N log2N 次,因此,层次聚类的时间复杂度可视为: O ( n 2 l o g n ) O\left(n^{2}logn\right) O(n2logn)

K-means聚类,首先任取k个样本点作为k个簇的初始中心,并对每一个样本点,计算它们与k个中心的距离,假设有N个样本点,因此计算N个样本点与k个样本点之间的距离共需计算次数为 k N kN kN,假设迭代m轮,则为 m k N mkN mkN 次。

K-means的时间复杂度可简化为: O ( n ) O\left(n\right) O(n),为线性阶,因此在数据量较大时,选择K-means算法比较合适(k-means又名快速聚类,看名字也能知道这个算法很快!!!😎)。


十一. 什么是KDD?

A. 数据挖掘与知识发现 B. 动态知识发现 C. 文档知识发现 D. 领域知识发现

解析:
知识发现(Knowledge Discovery in Database, KDD),是所谓"数据挖掘"的一种更广义的说法,即从各种媒体表示的信息中,根据不同的需求获得知识。

From 百度百科 “知识发现”


十二. 适宜采用DBSCAN聚类算法的数据性状?

A. 球形 B. SS形 C. 椭球形 D. 方形

解析:
DBSCAN算法将簇定义为密度相连的点的最大集合,能够把具有足够密度的区域划分为簇。
选项ACD的数据形状都是聚集在一坨,而只有B选项是两坨分开的形状。
在这里插入图片描述(随手画了一下…🎅)


十三. 数据挖掘中,Naive Bayes属于什么方法?

A. 聚类 B.分类 C. 时间序列 D. 关联规则

解析:
Naive Bayes,朴素贝叶斯算法,一种常见的分类算法。该算法对于给出的待分类项,求解在此项出现的条件下各个类别出现的概率,哪个最大,就认为此待分类项属于哪个类别。(这个算法的思想真的很朴素,所以就叫朴素贝叶斯…🙃)


十四. 下列选项中,属于关联规则算法的是?

A. 决策树、对数回归、关联模式
B. k均值、SOM神经网络
C. Apriori算法、FP-Tree算法
D. RBF神经网络、K均值、决策树

解析:
关联规则常见算法有如下:
Apriori算法、PCY算法、多阶段算法、多哈希算法、FP-Tree算法、XFP-Tree算法、GPApriori算法

题目选项中涉及的若干算法:决策树(分类)、对数回归(回归)、关联模式(关联规则)、K均值(聚类)、SOM神经网络(聚类)、Apriori(关联规则)、FP-Tree算法(关联规则)、RBF神经网络(分类)


十五. 要查询wold_books表中所有书名以“中国”开头的书籍的author,SQL语句为?

解析:
SQL中,模糊查询命令 LIKE,以"中国"开头的模糊查询,则为 LIKE ‘中国%’
故该SQL语句为:

SELECT author FROM wold_books WHERE book_name LIKE '中国%'

十六. 以下哪个属性是hdfs-site.xml中的配置?

A. dfs.replication
B. fs.defaultFS
C. mapreduce.framework.name
D. yarn.resourcemanager.address

解析:
dfs.replication:设置数据副本的数量,在HDFS中hdfs-site.xml内配置;
fs.defaultFS:默认文件系统的名称,在Hadoop中core-site.xml内配置;
mapreduce.framework.name:用于执行MapReduce作业的运行时的框架,在Hadoop中mapred-site.xml内配置;
yarn.resourcemanager.address:设置对客户端暴露的地址,在Hadoop中yarn-site.xml内配置;


十七. 以下不属于监督学习模型的是?

A. 支撑向量机 B. 朴素贝叶斯 C. 关联分析 D. 线性回归

解析:
关联分析属于无监督学习… 🐷


十八. 以下指标中,不能用于线性回归中的模型比较的是?

A. R方
B. 调整R方
C. AIC
D. BIC

解析:
绘制一个简单的回归图如下所示(蓝色为线性回归拟合的曲线,黄色为真实样本点,红色为拟合残差)
在这里插入图片描述
残差平方和(RSS):
R S S = ∑ ( y i − y i ^ ) RSS=\sum(y_{i} - \hat{y_{i}}) RSS=(yiyi^)
残差平方和RSS是回归模型优化的目标函数。RSS值越低,则代表模型预测值越好。但是RSS有个缺陷,会随着目标值量纲尺度的变化而改变。

总平方和(TSS):

T S S = ∑ ( y i − y ˉ ) TSS=\sum(y_{i}-\bar{y}) TSS=(yiyˉ)
其中, y ˉ \bar{y} yˉ Y Y Y 的平均值;总平方和TSS与方差非常相似,它给出了目标变量 Y Y Y 的总变化量,

R 2 R^2 R2 的定义:TSS 给出 Y 的总变化量,RSS 给出了回归模型不被自变量 X 解释的Y的变化量,那么 TSS-RSS 给出了 Y 的变化,并且这部分变化是由模型解释的 !!!我们可以简单地再除以 TSS,得到由模型解释的 Y 中的变化比例。这便是 R 2 R^2 R2 统计量!🤯

R 2 = T S S − R S S T S S = 1 − R S S T S S R^2=\frac{TSS-RSS}{TSS}=1-\frac{RSS}{TSS} R2=TSSTSSRSS=1TSSRSS

“R方统计量是一种尺度不变的统计量,它给出了线性回归模型解释的目标变量的变化比例。”

但是,残差平方和 RSS 只会随着回归方程中自变量的增加而减小!也就是说,无论我们在回归方程中添加多少变量,R方的值永远不会减少。因此,短回归方程的 R 2 R^2 R2 必然小于长回归方程的 R 2 R^2 R2
y 1 = X 1 β 1 + α 1 y 2 = X 1 β 1 + X 2 β 2 + α 2 ↓ ↓ R 1 2 ≥ R 2 2 y_{1}=X_{1}\beta_{1}+\alpha_{1} \\ y_{2}=X_{1}\beta_{1}+X_{2}\beta_{2}+\alpha_{2} \\ ↓↓ \\ R^{2}_{1} \geq R^{2}_{2} y1=X1β1+α1y2=X1β1+X2β2+α2R12R22

具体的证明过程很复杂,有时间的话可以看一下:证明过程 ,或者参考格林的《计量经济分析》第六版 3.5节…😐

因此, R 2 R^2 R2 统计量不可以用于线性回归中的模型比较(短回归方程的R方必然比长回归方程的小,还比较个啥???)


十九. 以下不属于原始数据来源的是?

A. 犯罪记录 B. 抽样调查 C. 统计年鉴 D. 模拟实验

解析:
统计年鉴是统计局自己汇总的统计数据资料,怎么就成你的原始数据来源了?你在你的论文里引用了别人的论文,难不成人家的论文就成你的了?🥝


二十. 以下不属于分类算法的是?

A. KNN B. 逻辑回归 C. C4.5算法 D. TF-IDF算法

解析:
TF-IDF 是一种统计方法,用以评估某一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。常用于搜索引擎、文献检索等应用。


2021/10/18 03:25
困了,不想写了 🛌
在这里插入图片描述

  • 1
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值