机器学习笔试面试题——day3

选择题

1、下列方法中,不可以用于特征降维的方法包括
A 主成分分析PCA
B 线性判别分析LDA
C 深度学习SparseAutoEncoder
D 矩阵奇异值分解SVD

特征降维方法主要有:PCA,SVD,LDA,LLE,Isomap
AutoEncoder:AutoEncoder的结构与神经网络的隐含层相同,由输入L1,输出 L2组成,中间则是权重连接。L2可以尽可能的保存L1的信息,通常大多数情况下升维。

2、下列哪些不特别适合用来对高维数据进行降维
A LASSO
B 主成分分析法
C 聚类分析
D 小波分析法
E 线性判别法
F 拉普拉斯特征映射

lasso通过参数缩减达到降维的目的;
LDA通过找到一个空间使得类内距离最小类间距离最大所以可以看做是降维;
小波分析有一些变换的操作降低其他干扰可以看做是降维


3、下列属于无监督学习的是
A k-means
B SVM
C 最大熵
D CRF

4、下列哪个不属于CRF(条件随机场)模型对于HMM和MEMM模型的优势( )
A 特征灵活
B 速度快
C 可容纳较多上下文信息
D 全局最优

CRF(序列标注)是在给定待标记的观察序列的条件下,使用维特比算法,计算整个标记序列的联合概率分布。
CRF优点:
1)特征设计灵活
2)没有HMM那样严格的独立性假设条件,,因而可以容纳更多的上下文信息
3) CRF计算全局最优输出节点的条件概率,客服了最大熵马尔可夫模型标记偏置的缺点
CRF缺点
速度慢


5、以下哪个是常见的时间序列算法模型
A RSI
B MACD
C ARMA
D KDJ

RSI:相对强弱指数,通过比较一段时期内的平均收盘涨数和平均收盘跌数来分析市场买沽盘的意向和实力 , 从而作出未来市场的走势 
MACD:移动平均聚散指标,是根据均线的构造原理 , 对股票价格的收盘价进行平滑处理 , 求出算术平均值以后再进行计算 , 是一种趋向类指标 
KDJ:随机指标,是根据统计学的原理 , 通过一个特定的周期 ( 常为 9 日 ,9 周等 ) 内出现过的最高价 , 最低价及最后一个计算周期的收盘价及这三者之间的比例关系 , 来计算最后一个计算周期的未成熟随机值 RSV, 然后根据平滑移动平均线的方法来计算 K 值 , D 值与 J 值 , 并绘成曲线图来研判股票走势 .


6、下列不是SVM核函数的是
A 多项式核函数
B logistic核函数
C 径向基核函数
D Sigmoid核函数

SVM核函数:线性核、多项式核、径向基核、高斯核、幂指数核、拉普拉斯核、sigmod核(用sigmod核时,SVM是实现的是一种多层感知器神经网路,能求得全局最优值且对于未知样本的良好泛化能力)
核函数的选择方法:
1)利用专家的先验知识
2)采用交叉验证法,分别使用不同的核函数,归纳误差最小的
3)混合核函数,是目前的主流方法


7、解决隐马模型中预测问题的算法是
A 前向算法
B 后向算法
C Baum-Welch算法
D 维特比算法

解决预测问题:维特比算法
解决概率计算问题:前向后向算法
解决参数估计问题:Baum-Welch算法


8、一般,k-NN最近邻方法在()的情况下效果较好
A 样本较多但典型性不好
B 样本较少但典型性好
C 样本呈团状分布
D 样本呈链状分布

KNN主要依靠的是周围的点,如果样本过多,那么难以区分
整体样本应该具有典型性好


9、在一个n维的空间中, 最好的检测outlier(离群点)的方法是()
A 作正态分布概率图
B 作盒形图
C 马氏距离
D 作散点图
 

10、对数几率回归(logistics regression)和一般回归分析有什么区别?
A 对数几率回归是设计用来预测事件可能性的
B 对数几率回归可以用来度量模型拟合程度
C 对数几率回归可以用来估计回归系数
D 以上所有

LR回归是用来解决分类问题的,可以检验模型对数据的拟合度
模型建立好后,就可以根据独立的特征,估计相关的回归系数

 

11、bootstrap数据是什么意

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值