机器学习-笔试题总结1

深度学习 vs 机器学习 vs 模式识别

模式识别:智能程序的诞生。
机器学习:从样本中学习的智能程序。
深度学习:一统江湖的架构。受宠爱最多的就是被用在大规模图像识别任务中的卷积神经网络。


1)机器学习就像是一个真正的冠军一样持续昂首而上;
2)模式识别一开始主要是作为机器学习的代名词;模式识别正在慢慢没落和消亡;

3)深度学习是个崭新的和快速攀升的领域。

1. SVM经常使用的核函数有(1)线性核函数(2)多项式核(3)径向基核(RBF)(4)傅里叶核(5)样条核(6)Sigmoid核函数

2. 序列模式挖掘算法:指挖掘相对时间或其他模式出现频率高的模式,典型的应用还是限于离散型的序列。


 


Apriori类算法包括: AprioriAll和 GSP等。

 

在序列模式挖掘中,FreeSpan和PrefixSpan是两个常用的算法。其中,PrefixSpan是从FreeSpan中推导演化而来的。这两个算法都比传统的Apriori-like的序列模式挖掘算法(GSP)都有效。而PrefixSpan又比FreeSpan又更有效。这是因为PrefixSpan的收缩速度比FreeSpan还要更快些。 

 

典型应用:商场挖掘即用户几次购买行为间的联系,可以采取更有针对性的营销措施。

 

类似于Apriori算法大体分为候选集产生、候选集计数以及扩展分类三个阶段。与AprioriAll算法相比,GSP算法统计较少的候选集,并且在数据转换过程中不需要事先计算频繁集。



3. 序列模式 VS 关联规则

 

问题
序列模式挖掘
关联规则挖掘
数据集
序列数据库
事务数据库
关注点
单项间在同一事务内以及事务间的关系
单项间在同一事务内的关系





. 类域界面方程法中,求线性不可分情况下分类问题近似或精确解的方法是?
神经网络处理不可分现象

5.特征选择方法:信息增益、信息增益率、基尼系数


6. 基于核的算法:支持向量机(Support Vector Machine, SVM), 径向基函数(Radial Basis Function ,RBF), 线性判别分析(Linear Discriminate Analysis ,LDA)等


7. 数据清理中,处理缺失值的方法是?


数据清理中,处理缺失值的方法有两种:



删除法:1)删除观察样本

       2)删除变量:当某个变量缺失值较多且对研究目标影响不大时,可以将整个变量整体删除

       3)使用完整原始数据分析:当数据存在较多缺失而其原始数据完整时,可以使用原始数据替代现有数据进行分析

       4)改变权重:当删除缺失数据会改变数据结构时,通过对完整数据按照不同的权重进行加权,可以降低删除缺失数据带来的偏差


查补法:均值插补、回归插补、抽样填补等

成对删除与改变权重为一类,估算与查补法为一类


 


8. 下列哪个不属于CRF模型对于HMM和MEMM模型的优势( )B

 

  A. 特征灵活  B. 速度快  C. 可容纳较多上下文信息  D. 全局最优

 

首先,CRF,HMM(隐马模型),MEMM(最大熵隐马模型)都常用来做序列标注的建模.

 

隐马模型一个最大的缺点就是由于其输出独立性假设,导致其不能考虑上下文的特征,限制了特征的选择

 

最大熵隐马模型则解决了隐马的问题,可以任意选择特征,但由于其在每一节点都要进行归一化,所以只能找到局部的最优值,同时也带来了标记偏见的问题,即凡是训练语料中未出现的情况全都忽略掉

 

条件随机场则很好的解决了这一问题,他并不在每一个节点进行归一化,而是所有特征进行全局归一化,因此可以求得全局的最优值。

 



9. KNN和K-Means的区别

 

KNN

K-Means

1.KNN是分类算法 

 

2.监督学习 

3.喂给它的数据集是带label的数据,已经是完全正确的数据

1.K-Means是聚类算法 

 

2.非监督学习 

3.喂给它的数据集是无label的数据,是杂乱无章的,经过聚类后才变得有点顺序,先无序,后有序

没有明显的前期训练过程,属于memory-based learning有明显的前期训练过程
K的含义:来了一个样本x,要给它分类,即求出它的y,就从数据集中,在x附近找离它最近的K个数据点,这K个数据点,类别c占的个数最多,就把x的label设为cK的含义:K是人工固定好的数字,假设数据集合可以分为K个簇,由于是依靠人工定好,需要一点先验知识


相似点:都包含这样的过程,给定一个点,在数据集中找离它最近的点。即二者都用到了NN(Nears Neighbor)算法,一般用KD树来实现NN。




 

10. 以下哪个是常见的时间序列算法模型B

 

 A. RSIB. MACDC. ARMAD. KDJ

 

时间序列模型是指采用某种算法(可以是神经网络、ARMA等)模拟历史数据,找出其中的变化规律

 

时间序列算法模型主要有:移动平均算法、指数平滑算法及ARMA、ARIMA方法。










转载于:https://www.cnblogs.com/qixiangyujj/p/5918778.html

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值