每日一题(阿里巴巴2016数据挖掘工程师笔试)

1.想要了解上海市小学生的身高,需要抽取 500 个样本,这项调查中的样本是?(A)

A.从中抽取的 500 名学生的身高
B.上海市全部小学生的身高
C.从中抽取的 500 名小学生
D.上海市全部小学生

-------------------------------------------------------------------------------------------------------------------------------------------------------------------

2.以下对 k-means 聚类算法解释正确的是(C)
A.能自动识别类的个数,随即挑选初始点为中心点计算
B.能自动识别类的个数,不是随即挑选初始点为中心点计算
C.不能自动识别类的个数,随即挑选初始点为中心点计算
D.不能自动识别类的个数,不是随即挑选初始点为中心点计算
-------------------------------------------------------------------------------------------------------------------------------------------------------------------

3.以下哪个是常见的时间序列算法模型(C)

A.RSI
B.MACD
C.ARMA
D.KDJ
解析:

时间序列中常用预测技术  一个时间序列是一组对于某一变量连续时间点或连续时段上的观测值。

1.  移动平均法 (MA)

1.1. 简单移动平均法

设有一时间序列y1,y2,..., 则按数据点的顺序逐点推移求出N个数的平均数,即可得到一次移动平均数.

 1.2 趋势移动平均法  

当时间序列没有明显的趋势变动时,使用一次移动平均就能够准确地反映实际情况,直接用第t周期的一次移动平均数就可预测第1t+周期之值。

时间序列出现线性变动趋势时,用一次移动平均数来预测就会出现滞后偏差。修正的方法是在一次移动平均的基础上再做二次移动平均,利用移动平均滞后偏差的规律找出曲线的发展方向和发展趋势,然后才建立直线趋势的预测模型。故称为趋势移动平均法。

2.  自回归模型(AR)

AR模型是一种线性预测,即已知N个数据,可由模型推出第N点前面或后面的数据(设推出P点).

本质类似于插值,其目的都是为了增加有效数据,只是AR模型是由N点递推,而插值是由两点(或少数几点)去推导多点,所以AR模型要比插值方法效果更好。

3. 自回归滑动平均模型(ARMA)

其建模思想可概括为:逐渐增加模型的阶数,拟合较高阶模型,直到再增加模型的阶数而剩余残差方差不再显著减小为止。

4. GARCH模型

回归模型。除去和普通回归模型相同的之处,GARCH对误差的方差进行了进一步的建模。特别适用于波动性的分析和预测。

5. 指数平滑法

移动平均法的预测值实质上是以前观测值的加权和,且对不同时期的数据给予相同的加权。这往往不符合实际情况。

指数平滑法则对移动平均法进行了改进和发展,其应用较为广泛。

基本思想都是:预测值是以前观测值的加权和,且对不同的数据给予不同的权,新数据给较大的权,旧数据给较小的权。

根据平滑次数不同,指数平滑法分为:一次指数平滑法、二次指数平滑法和三次指数平滑法等。

地址:http://blog.csdn.net/ztf312/article/details/50890267

--------------------------------------------------------------------------------------------------------------------------------------------------------------------------------

4.有个袋子装有 2 个红球,2 个蓝球,1 个黄球,取出球以后不再放回,请问取两次出来的球是相同颜色的概率是多少(C)

A.0.3333
B.0.25
C.0.2
D.0.1667
解析:

挑选两个样本没有顺序要求所以是组合:C(5,1)*C(4,1)

要求两次挑选的球有相同颜色:所以只能挑选红球和蓝球:c(4,1)*1

故挑选相同球的概率为:c(4,1)/(c(5,1)*c(4,1))=0.2

----------------------------------------------------------------------------------------------------------------------------------------------------------------

5.65,8,50,15,37,24,()。括号中的数字是()

A.25
B.26
C.22
D.27
解析:

奇数项是按照15,13,11的递减差递减数列;偶数项是按照7,9,11,的递增差增序列。那么答案就是第七项,奇数列就按照减11吧,37-11=26

-----------------------------------------------------------------------------------------------------------------------------------------------------------------------

6.一组数据,均值>中位数>众数,问这组数据()

A.左偏
B.右偏
C.钟型
D.对称
解析:

答案为右偏

首先是左偏、右偏是什么情况的的问题:   这都是建立的频率分布图上的

如下图,“偏”可以理解为哪边的数据比较少,左偏就是左边的数据偏少

其次,这三个数的关系。咱们看看中位数和众数的关系

众数,频率最高的那个数,图上就是最高峰对应的x值

中位数,中间位置的那个数,在图上就是面积对半分的那条线对应的x值(因为频率图的总面积可认为是数据总个数,想想如果连续的情况)

当右偏时,可直观得出   中位数 > 众数

---------------------------------------------------------------------------------------------------------------------------------------------------------------------------------

7.SQL 语言允许使用通配符进行字符串匹配的操作,其中‘%’可以表示(D)

A.零个字符
B.1 个字符
C.多个字符
D.以上都可以
--------------------------------------------------------------------------------------------------------------------------------------------------------------------------

8.关于正态分布,下列说法错误的是:(C)

A.正态分布具有集中性和对称性
B.正态分布的均值和方差能够决定正态分布的位置和形态
C.正态分布的偏度为 0,峰度为 1
D.标准正态分布的均值为 0,方差为 1

-------------------------------------------------------------------------------------------------------------------------------------------------------------------------

9.下列时间序列模型中,哪一个模型可以较好地拟合波动性的分析和预测(D)
A.AR 模型
B.MA 模型
C.ARMA 模型
D.GARCH 模型

解析:

AR模型:自回归模型,是一种线性模型

MA模型:移动平均法模型,其中使用趋势移动平均法建立直线趋势的预测模型

ARMA模型:自回归滑动平均模型,拟合较高阶模型

GARCH模型:广义回归模型,对误差的方差建模,适用于波动性的分析和预测

----------------------------------------------------------------------------------------------------------------------------------------------------------------------

10.关于相关系数,下列描述中正确的有:

A.相关系数为 0.8 时,说明两个变量之间呈正相关关系
B.相关系数等于 1 相较于相关系数等于-1,前者的相关性更强
C.相关性等于 1 相较于相关系数等于 0,前者的相关性更强
D.Pearson 相关系数衡量了两个定序变量之间的相关程度
E.Spearman 相关系数可以衡量两个定序变量之间的相关程度
F.相关系数为 0.2 相较于-0.8,前者的相关性更强
解析:

ρXY | > 0.8时称为高度相关,当 | ρXY | < 0.3时称为低度相关,其它时候为中度相关。

定序测量数据可以用spearman相关系数,不能用pearson相关系数

----------------------------------------------------------------------------------------------------------------------------------------------------------------------------

11.下列哪些方法可以用来对高维数据进行降维:

A.LASSO
B.主成分分析法
C.聚类分析
D.小波分析法
E.线性判别法
F.拉普拉斯特征映射
----------------------------------------------------------------------------------------------------------------------------------------------------------------------------------

 

 

 

 

 

 

 

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

凤凰AI

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值