机器学习-知识点-笔试-很全

1、模型:
判别式模型举例:要确定一个羊是山羊还是绵羊,用判别模型的方法是从历史数据中学习到模型,然后通过提取这只羊的特征来预测出这只羊是山羊的概率,是绵羊的概率。(logistic回归,>0.5为正例,否则,为反例)
生成式模型举例:利用生成模型是根据山羊的特征首先学习出一个山羊的模型,然后根据绵羊的特征学习出一个绵羊的模型,然后从这只羊中提取特征,放到山羊模型中看概率是多少,在放到绵羊模型中看概率是多少,哪个大就是哪个。(朴素贝叶斯分类就是这样)
常见的模型大多是判别模型,生成模型有:朴素贝叶斯(需要求联合概率分布),隐马尔科夫HMM,高斯混合模型GMM,LDA(Latent Dirichlet Allocation)是一种文档主题生成模型,也称为一个三层贝叶斯概率模型。
生成式模型和判别式模型的判断。
一般来说判别式模型都是分类模型,
K近邻(KNN)
线性回归(Linear Regression)
逻辑斯蒂回归(Logistic Regression)
神经网络(NN)
支持向量机(SVM)
高斯过程(Gaussian Process)
条件随机场(CRF)
CART(Classification and Regression Tree)
都是属于判别式模型;
一般生成式模型:
朴素贝叶斯
混合高斯模型
隐马尔科夫模型(HMM)
贝叶斯网络
Sigmoid Belief Networks
马尔科夫随机场(Markov Random Fields)
深度信念网络(DBN)

2、SGD梯度下降是对单个样本来进行训练,SGD的使用与数据集规模无关,在线性回归于SVM中可以使用梯度下降,它的作用并不是有限的。

3、对于有监督和无监督的区分。
一般聚类、降维都属于无监督。分类(回归 其实回归也是分类)都属于有监督,分类和聚类是不一样的。

4、对于线性和非线性的区分。
线性和非线性的区别:
线性linear,指量与量之间按比例、成直线的关系,在数学上可以理解为一阶导数为常数的函数;非线性non-linear则指不按比例、不成直线的关系,一阶导数不为常数。
非线性一般指数非一次。

5、模型的评价指标:
一般的评价指标为:P准确率 、F1值和Rcall召回率
TP:表示:实际为正判断为正;
TN:实际为负判断为负;
FP:实际为正判断为负;
FN:实际为负判断为正;

p;准确率=TP/(TP+FP)
其中分母为实际的正的总数。
RCALL=TP/(TP+FN)
其中分母为判断为正的数目。
F1=2P*R/(P+R)

对于不平衡数据,我们需要额外增加判别的评价指标:
ROC曲线,通过绘制ROC曲线,计算AUC值来判断模型的好坏。
绘制ROC曲线,我们首先需要计算TPR和FPR两个指标的数值。
TPR的数值等于Recall的数值,TPR=Recall;
FPR=FP/(FP+TN) 就是你预测负错误的在所有预测为负中所占的比例。
以TPR为纵坐标,FPR为横坐标即可得到ROC曲线,ROC曲线与x轴围成的面积就是AUC的数值,一般AUC的数值都是在0.5-1之间,1属于理想状态,模型准确率最高;根据AUC的数值来判断模型的好坏,一般数值越大模型越好,如果AUC的数值小于0.5需要考虑是不是模型的标签搞反了,或者是模型的分类效果太差了。

6、CRF和HMM和MEMM模型

下列哪个不属于CRF模型对于HMM和MEMM模型的优势( )
正确答案: B
特征灵活
速度快
可容纳较多上下文信息
全局最优
解析;1)CRF没有HMM那样严格的独立性假设条件,因而可以容纳任意的上下文信息。特征设计灵活(与ME一样) ————与HMM比较
(2)同时,由于CRF计算全局最优输出节点的条件概率,它还克服了最大熵马尔可夫模型标记偏置(Label-bias)的缺点。 ­­————与MEMM比较
(3)CRF是在给定需要标记的观察序列的条件下,计算整个标记序列的联合概率分布,而不是在给定当前状态条件下,定义下一个状态的状态分布。
————与ME比较
缺点:训练代价大、复杂度高

7、关于行列式和伴随的计算:
在这里插入图片描述

8、对于集成学习:
集成学习主要分为四种:bagging boosting stracking blending
bagging算法:随机森林
boosting:adaboost、GBDT,xgboost
https://www.cnblogs.com/zongfa/p/9304353.html

9、影响聚类算法效果的主要原因有:( )
正确答案: A B C
特征选取
模式相似性测度
分类准则
已知类别的样本质量
解析:监督算法使用的都是无标签的数据,与已知标签的数据无关。

10、以下()属于线性分类器最佳准则?
正确答案: A C D
感知准则函数
贝叶斯分类
支持向量机
Fisher准则
解析:线性分类器有三大类:感知器准则函数、SVM、Fisher准则,而贝叶斯分类器不是线性分类器。
感知器准则函数:代价函数J=-(W*X+w0),分类的准则是最小化代价函数。感知器是神经网络(NN)的基础,网上有很多介绍。
SVM:支持向量机也是很经典的算法,优化目标是最大化间隔(margin),又称最大间隔分类器,是一种典型的线性分类器。(使用核函数可解决非线性问题)
Fisher准则:更广泛的称呼是线性判别分析(LDA),将所有样本投影到一条远点出发的直线,使得同类样本距离尽可能小,不同类样本距离尽可能大,具体为最大化“广义瑞利商”。
贝叶斯分类器:一种基于统计方法的分类器,要求先了解样本的分布特点(高斯、指数等),所以使用起来限制很多。在满足一些特定条件下,其优化目标与线性分类器有相同结构(同方差高斯分布等),其余条件下不是线性分类。

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

椒椒。

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值