深度学习 vs 机器学习 vs 模式识别
1)机器学习就像是一个真正的冠军一样持续昂首而上;
3)深度学习是个崭新的和快速攀升的领域。
1. SVM经常使用的核函数有:(1)线性核函数(2)多项式核(3)径向基核(RBF)(4)傅里叶核(5)样条核(6)Sigmoid核函数
2. 序列模式挖掘算法:指挖掘相对时间或其他模式出现频率高的模式,典型的应用还是限于离散型的序列。
Apriori类算法包括: AprioriAll和 GSP等。
在序列模式挖掘中,FreeSpan和PrefixSpan是两个常用的算法。其中,PrefixSpan是从FreeSpan中推导演化而来的。这两个算法都比传统的Apriori-like的序列模式挖掘算法(GSP)都有效。而PrefixSpan又比FreeSpan又更有效。这是因为PrefixSpan的收缩速度比FreeSpan还要更快些。
典型应用:商场挖掘即用户几次购买行为间的联系,可以采取更有针对性的营销措施。
类似于Apriori算法大体分为候选集产生、候选集计数以及扩展分类三个阶段。与AprioriAll算法相比,GSP算法统计较少的候选集,并且在数据转换过程中不需要事先计算频繁集。
3. 序列模式 VS 关联规则
问题
|
序列模式挖掘
|
关联规则挖掘
|
数据集
|
序列数据库
|
事务数据库
|
关注点
|
单项间在同一事务内以及事务间的关系
|
单项间在同一事务内的关系
|
5.特征选择方法:信息增益、信息增益率、基尼系数
6. 基于核的算法:支持向量机(Support Vector Machine, SVM), 径向基函数(Radial Basis Function ,RBF), 线性判别分析(Linear Discriminate Analysis ,LDA)等
7. 数据清理中,处理缺失值的方法是?
数据清理中,处理缺失值的方法有两种:
删除法:1)删除观察样本
2)删除变量:当某个变量缺失值较多且对研究目标影响不大时,可以将整个变量整体删除
3)使用完整原始数据分析:当数据存在较多缺失而其原始数据完整时,可以使用原始数据替代现有数据进行分析
4)改变权重:当删除缺失数据会改变数据结构时,通过对完整数据按照不同的权重进行加权,可以降低删除缺失数据带来的偏差
查补法:均值插补、回归插补、抽样填补等
成对删除与改变权重为一类,估算与查补法为一类
8. 下列哪个不属于CRF模型对于HMM和MEMM模型的优势( )B
A. 特征灵活 B. 速度快 C. 可容纳较多上下文信息 D. 全局最优
首先,CRF,HMM(隐马模型),MEMM(最大熵隐马模型)都常用来做序列标注的建模.
隐马模型一个最大的缺点就是由于其输出独立性假设,导致其不能考虑上下文的特征,限制了特征的选择
最大熵隐马模型则解决了隐马的问题,可以任意选择特征,但由于其在每一节点都要进行归一化,所以只能找到局部的最优值,同时也带来了标记偏见的问题,即凡是训练语料中未出现的情况全都忽略掉
条件随机场则很好的解决了这一问题,他并不在每一个节点进行归一化,而是所有特征进行全局归一化,因此可以求得全局的最优值。
9. KNN和K-Means的区别
KNN | K-Means |
1.KNN是分类算法
2.监督学习 3.喂给它的数据集是带label的数据,已经是完全正确的数据 | 1.K-Means是聚类算法
2.非监督学习 3.喂给它的数据集是无label的数据,是杂乱无章的,经过聚类后才变得有点顺序,先无序,后有序 |
没有明显的前期训练过程,属于memory-based learning | 有明显的前期训练过程 |
K的含义:来了一个样本x,要给它分类,即求出它的y,就从数据集中,在x附近找离它最近的K个数据点,这K个数据点,类别c占的个数最多,就把x的label设为c | K的含义:K是人工固定好的数字,假设数据集合可以分为K个簇,由于是依靠人工定好,需要一点先验知识 |
相似点:都包含这样的过程,给定一个点,在数据集中找离它最近的点。即二者都用到了NN(Nears Neighbor)算法,一般用KD树来实现NN。
10. 以下哪个是常见的时间序列算法模型B
A. RSIB. MACDC. ARMAD. KDJ
时间序列模型是指采用某种算法(可以是神经网络、ARMA等)模拟历史数据,找出其中的变化规律
时间序列算法模型主要有:移动平均算法、指数平滑算法及ARMA、ARIMA方法。 |