机器学习-笔试题总结1

最新推荐文章于 2024-03-19 20:35:00 发布

weixin_30590285

最新推荐文章于 2024-03-19 20:35:00 发布

阅读量171

点赞数

原文链接：http://www.cnblogs.com/qixiangyujj/p/5918778.html

版权

深度学习 vs 机器学习 vs 模式识别

模式识别：智能程序的诞生。

机器学习：从样本中学习的智能程序。

深度学习：一统江湖的架构。受宠爱最多的就是被用在大规模图像识别任务中的卷积神经网络。

1）机器学习就像是一个真正的冠军一样持续昂首而上；

2）模式识别一开始主要是作为机器学习的代名词；模式识别正在慢慢没落和消亡；

3）深度学习是个崭新的和快速攀升的领域。

1. SVM经常使用的核函数有：(1)线性核函数(2)多项式核(3)径向基核（RBF）(4)傅里叶核(5)样条核(6)Sigmoid核函数

2. 序列模式挖掘算法：指挖掘相对时间或其他模式出现频率高的模式，典型的应用还是限于离散型的序列。

Apriori类算法包括： AprioriAll和 GSP等。

在序列模式挖掘中，FreeSpan和PrefixSpan是两个常用的算法。其中，PrefixSpan是从FreeSpan中推导演化而来的。这两个算法都比传统的Apriori-like的序列模式挖掘算法（GSP）都有效。而PrefixSpan又比FreeSpan又更有效。这是因为PrefixSpan的收缩速度比FreeSpan还要更快些。

典型应用：商场挖掘即用户几次购买行为间的联系，可以采取更有针对性的营销措施。

类似于Apriori算法大体分为候选集产生、候选集计数以及扩展分类三个阶段。与AprioriAll算法相比，GSP算法统计较少的候选集，并且在数据转换过程中不需要事先计算频繁集。

3. 序列模式 VS 关联规则

问题	序列模式挖掘	关联规则挖掘
数据集	序列数据库	事务数据库
关注点	单项间在同一事务内以及事务间的关系	单项间在同一事务内的关系

. 类域界面方程法中，求线性不可分情况下分类问题近似或精确解的方法是？

神经网络处理不可分现象

5.特征选择方法：信息增益、信息增益率、基尼系数

6. 基于核的算法：支持向量机（Support Vector Machine， SVM），径向基函数（Radial Basis Function ，RBF)，线性判别分析（Linear Discriminate Analysis ，LDA)等

7. 数据清理中，处理缺失值的方法是?

数据清理中，处理缺失值的方法有两种：

删除法：1）删除观察样本

2）删除变量：当某个变量缺失值较多且对研究目标影响不大时，可以将整个变量整体删除

3）使用完整原始数据分析：当数据存在较多缺失而其原始数据完整时，可以使用原始数据替代现有数据进行分析

4）改变权重：当删除缺失数据会改变数据结构时，通过对完整数据按照不同的权重进行加权，可以降低删除缺失数据带来的偏差

查补法：均值插补、回归插补、抽样填补等

成对删除与改变权重为一类，估算与查补法为一类

8. 下列哪个不属于CRF模型对于HMM和MEMM模型的优势（）B

A. 特征灵活 B. 速度快 C. 可容纳较多上下文信息 D. 全局最优

首先，CRF，HMM(隐马模型)，MEMM(最大熵隐马模型)都常用来做序列标注的建模.

隐马模型一个最大的缺点就是由于其输出独立性假设，导致其不能考虑上下文的特征，限制了特征的选择

最大熵隐马模型则解决了隐马的问题，可以任意选择特征，但由于其在每一节点都要进行归一化，所以只能找到局部的最优值，同时也带来了标记偏见的问题，即凡是训练语料中未出现的情况全都忽略掉

条件随机场则很好的解决了这一问题，他并不在每一个节点进行归一化，而是所有特征进行全局归一化，因此可以求得全局的最优值。

9. KNN和K-Means的区别

KNN	K-Means
1.KNN是分类算法 2.监督学习 3.喂给它的数据集是带label的数据，已经是完全正确的数据	1.K-Means是聚类算法 2.非监督学习 3.喂给它的数据集是无label的数据，是杂乱无章的，经过聚类后才变得有点顺序，先无序，后有序
没有明显的前期训练过程，属于memory-based learning	有明显的前期训练过程
K的含义：来了一个样本x，要给它分类，即求出它的y，就从数据集中，在x附近找离它最近的K个数据点，这K个数据点，类别c占的个数最多，就把x的label设为c	K的含义：K是人工固定好的数字，假设数据集合可以分为K个簇，由于是依靠人工定好，需要一点先验知识

相似点：都包含这样的过程，给定一个点，在数据集中找离它最近的点。即二者都用到了NN(Nears Neighbor)算法，一般用KD树来实现NN。 10. 以下哪个是常见的时间序列算法模型B A. RSIB. MACDC. ARMAD. KDJ 时间序列模型是指采用某种算法（可以是神经网络、ARMA等）模拟历史数据，找出其中的变化规律时间序列算法模型主要有：移动平均算法、指数平滑算法及ARMA、ARIMA方法。