1.想要了解上海市小学生的身高,需要抽取500个样本,这项调查中的样本是?A
A.从中抽取的500名学生的身高
B.上海市全部小学生的身高
C.从中抽取的500名小学生
D.上海市全部小学生
2.以下对k-means聚类算法解释正确的是C
A.能自动识别类的个数,随即挑选初始点为中心点计算
B.能自动识别类的个数,不是随即挑选初始点为中心点计算
C.不能自动识别类的个数,随即挑选初始点为中心点计算
D.不能自动识别类的个数,不是随即挑选初始点为中心点计算
3.以下哪个是常见的时间序列算法模型C
A.RSI
B.MACD
C.ARMA
D.KDJ
4.有个袋子装有2个红球,2个蓝球,1个黄球,取出球以后不再放回,请问取两次出来的球是相同颜色的概率是多少C
A.0.3333
B.0.25
C.0.2
D.0.1667
有序,所以{ C(2,1)C(1,1)+C(2,1)C(1,1)}/{C(5,1)C(4,1)}
5.65,8,50,15,37,24,()。括号中的数字是()B
A.25
B.26
C.22
D.27
6.一组数据,均值>中位数>众数,问这组数据B
A.左偏
B.右偏
C.钟型
D.对称
7.SQL语言允许使用通配符进行字符串匹配的操作,其中‘%’可以表示D
A.零个字符
B.1个字符
C.多个字符
D.以上都可以
8.关于正态分布,下列说法错误的是:C
A.正态分布具有集中性和对称性
B.正态分布的均值和方差能够决定正态分布的位置和形态
C.正态分布的偏度为0,峰度为1
D.标准正态分布的均值为0,方差为1
9.在以下不同的场景中,使用的分析方法不正确的有B
A.根据商家最近一年的经营及服务数据,用聚类算法判断出天猫商家在各自主营类目下所属的商家层级
B.根据商家近几年的成交数据,用聚类算法拟合出用户未来一个月可能的消费金额公式
C.用关联规则算法分析出购买了汽车坐垫的买家,是否适合推荐汽车脚垫
D.根据用户最近购买的商品信息,用决策树算法识别出淘宝买家可能是男还是女
10.下列时间序列模型中,哪一个模型可以较好地拟合波动性的分析和预测D
A.AR模型
B.MA模型
C.ARMA模型
D.GARCH模型
二、多选题 (共5道题,每题10分)
1.excel工作簿a中有两列id、age,工作簿b中有一列id,需要找到工作薄b中id对应的age,可用的函数包括AB
A.index+match
B.vlookup
C.hlookup
D.find
2.现在有M个桶,每桶都有N个乒乓球,乒乓球的颜色有K种,并且假设第i个桶第j种颜色的球个数为Cij, 比例为Rij=Cij/N,现在要评估哪个桶的乒乓球颜色纯度最高,下列哪种算法和描述是合理的?CDEF
A.∑(1-Rij*Rij)越小越纯
B.∑(1-Rij)*(1-Rij)越小越纯
C.∑(1-Rij)^2 越小越纯
D.-∑Rij*LOG(Rij)越小越纯
3.关于相关系数,下列描述中正确的有:ACE
A.相关系数为0.8时,说明两个变量之间呈正相关关系
B.相关系数等于1相较于相关系数等于-1,前者的相关性更强
C.相关性等于1相较于相关系数等于0,前者的相关性更强
D.Spearman相关系数可以衡量两个定序变量之间的相关程度
4.关于线性回归的描述,以下正确的有:BCE
A.基本假设包括随机干扰项是均值为0,方差为1的标准正态分布
B.基本假设包括随机干扰下是均值为0的同方差正态分布
C.在违背基本假设时,普通最小二乘法估计量不再是最佳线性无偏估计量
D.可以用DW检验残差是否存在序列相关性
5.下列哪些方法可以用来对高维数据进行降维:ABCDEF
LASSO
主成分分析法
聚类分析
小波分析法
线性判别法
拉普拉斯特征映射
6. 查询成交表a中的城市city的成交金额大于0的购买人数(buyer_id)和成交金额(amt)
参考答案
1
2
3
4
5
6
7
8
9
10
|
select buyer_id,sum(amt) as amt from a
where city in
(
select city from
(
select city,sum(amt) as amt from a
group by city
)t
where t.amt>0
)
|
参考答案
个体是总体中的每一个考察的对象,
样本是总体中所抽取的一部分个体,
首先我们要了解的是身高,所以CD排除
而B是考察对象的全体,所以B是总体
所以答案A正确
以上是KMeans(C均值)算法的具体步骤,可以看出需要选择类别数量,但初次选择是随机的,最终的聚类中心是不断迭代稳定以后的聚类中心。所以答案选C。这个是Clementine中K-Means算法的中心的初始化,如果按照这样理解,初始中心就不是随机,当然也不是认为指定的,而是通过某种算法确定。不过K-Means的“随即挑选”,应该是指不能认为输入的意思,所以只能随机或者按照某种策略进行选择初始中心。
-
奇数项是按照15,13,11的递减差递减数列;偶数项是按照7,9,11,的递增差增序列。那么答案就是第七项,奇数列就按照减11吧,37-11=26编辑于 2015-08-21 16:27:11回复(3)
-
15-8 =724-15=9;37-x=;50-37=13;65-50=15;所以37-x=11然后x=26.这特么是人做的题目吗!!!!6.
-
答案为右偏首先是左偏、右偏是什么情况的的问题: 这都是建立的频率分布图上的如下图,“偏”可以理解为哪边的数据比较少,左偏就是左边的数据偏少其次,这三个数的关系。咱们看看中位数和众数的关系众数,频率最高的那个数,图上就是最高峰对应的x值中位数,中间位置的那个数,在图上就是面积对半分的那条线对应的x值(因为频率图的总面积可认为是数据总个数,想想如果连续的情况)当右偏时,可直观得出 中位数 > 众数当然三个数的数据关系需要严格的数学推导,上面的方法只是辅助记忆所以对应选B。发表于 2015-08-22 18:10:00回复(6)
-
选B。众数:是一组数据中出现次数最多的数值; 众数、中位数与算术平均数之间有着一定的关系,这种关系决定于总体次数分布的状况.当次数分布呈对称的钟型分布时,算术平均数位于次数分布曲线的对称点上,而该点又是曲线的最高点和中心点,因此,众数、中位数和算术平均数三者相等.当次数分布呈非对称的钟型分布,由于这三种平均数受极端数值影响程度的不同,因而它们的数值就存在一定的差别,但三者之间仍有一定的关系.当次数分布右偏时,算术平均数受偏高数值影响较大,其位置必然在众数之右,中位数在众数与算术平均数之间.反之.当次数分布左偏时,算术平均数受偏小数值的影响较大,其位置在众数之左,中位数仍在两者之间编辑于 2015-08-20 15:33:24回复(0)
-
当数据关于均值对称分布时,偏度为0;当右边的数据更分散时,为右偏,反之左偏。若众数小于中位数,左边更集中右边更分散,故为右偏。
-
7. SQL 通配符必须与 LIKE 运算符一起使用。
在 SQL 中,可使用以下通配符:
通配符 | 描述 |
---|---|
% | 替代一个或多个字符 |
_ | 仅替代一个字符 |
[charlist] | 字符列中的任何单一字符 |
[^charlist] 或者 [!charlist] | 不在字符列中的任何单一字符 |
如果是正太分布的话.偏度是 三阶中心距,值为0.
,Skewness=0 分布形态与正态分布偏度相同
Skewness>0 正偏差数值较大,为正偏或右偏。长尾巴拖在右边。
Skewness<0 负偏差数值较大,为负偏或左偏。长尾巴拖在左边。
计算公式:
Skewness=E[((x-E(x))/(\sqrt{D(x)}))^3]
| Skewness| 越大,分布形态偏移程度越大。
Kurtosis=0 与正态分布的陡缓程度相同。
Kurtosis>0 比正态分布的高峰更加陡峭——尖顶峰
Kurtosis<0 比正态分布的高峰来得平台——平顶峰
计算公式:
计算时间序列x的峰度,峰度用于度量x偏离某分布的情况,正态分布的峰度为3。当时间序列的曲线峰值比正态分布的高时,峰度大于3;当比正态分布的低时,峰度小于3。
Skewness(偏度): 是对Sample构成的分布的对称性状况的描述。
计算时间序列x的偏度,偏度用于衡量x的对称性。若偏度为负,则x均值左侧的离散度比右侧强;若偏度为正,则x均值左侧的离散度比右侧弱。对于正态分布(或严格对称分布)偏度等于0
就是效率没有pearson相关系数高。
2.上述任一条件不满足,就用spearman相关系数,不能用pearson相关系数。
3.两个定序测量数据之间也用spearman相关系数,不能用pearson相关系数。
1、随机误差项是一个期望值或平均值为0的随机变量;
2、对于解释变量的所有观测值,随机误差项有相同的方差;
3、随机误差项彼此不相关;
4、解释变量是确定性变量,不是随机变量,与随机误差项彼此之间相互独立;
5、解释变量之间不存在精确的(完全的)线性关系,即解释变量的样本观测值矩阵是满秩矩阵;
6、随机误差项服从正态分布
违背基本假设的计量经济学模型还是可以估计的,只是不能使用普通最小二乘法进行估计。
当存在异方差时,普通最小二乘法估计存在以下问题: 参数估计值虽然是无偏的,但不是最小方差线性无偏估计。
杜宾-瓦特森(DW)检验,计量经济,统计分析中常用的一种检验序列一阶 自相关 最常用的方法。
所谓多重共线性(Multicollinearity)是指线性回归模型中的解释变量之间由于存在精确 相关关系或高度相关关系而使模型估计失真或难以估计准确。影响
/*对于线性回归模型,当响应变量服从正态分布,误差项满足高斯--马尔科夫条件(零均值、等方差、不相关)时,
回归参数的最小二乘估计是一致最小方差无偏估计。
当然,该条件只是理想化的假定,为的是数学上有相应的较为成熟的结论。其实大多数实际问题都不完全满足这些理想化的假定。
线性回归模型理论的发展正是在不断克服理想化条件不被满足时得到许多新方法。如加权LSE、岭估计、压缩估计、BOX_COX变换等一系列手段。
做实际工作时一定是要超越书本上的理想化条件的。 (这是在小木虫上看到的网友@chenlp211的解释。与大家分享)*/
多重共线性会使得参数估计值方差增大
15.
Lasso(Least absolute shrinkage and selection operator, Tibshirani(1996)) 方法是一种压缩估计,它通过构造一个罚函数得到一个较为精炼的模型,使得它压缩一些系数,同时设定一些系数为零。因此保留了子集收缩的优点,是一种处理具有复共线性数据的有偏估计。Lasso 的基本思想是在回归系数的绝对值之和小于一个常数的约束条件下,使残差平方和最小化,从而能够产生某些严格等于 0 的回归系数,得到可以解释的模型。lasso通过参数缩减达到降维的目的;
16.
select city,COUNT(buyer_id) as id_cnt,SUM(amt) as amt_cnt
from (select city,buyer_id,sum(amt) as amt from orders_a
where amt >
0
group by city,buyer_id) as t
group by city
|