机器学习-知识点-笔试-很全

最新推荐文章于 2024-06-12 19:05:13 发布

椒椒。

最新推荐文章于 2024-06-12 19:05:13 发布

阅读量200

点赞数 1

分类专栏： python 文章标签： python

本文链接：https://blog.csdn.net/qq_38978225/article/details/107788334

版权

python 专栏收录该内容

42 篇文章 1 订阅

订阅专栏

1、模型：
判别式模型举例：要确定一个羊是山羊还是绵羊，用判别模型的方法是从历史数据中学习到模型，然后通过提取这只羊的特征来预测出这只羊是山羊的概率，是绵羊的概率。（logistic回归，>0.5为正例，否则，为反例）
生成式模型举例：利用生成模型是根据山羊的特征首先学习出一个山羊的模型，然后根据绵羊的特征学习出一个绵羊的模型，然后从这只羊中提取特征，放到山羊模型中看概率是多少，在放到绵羊模型中看概率是多少，哪个大就是哪个。（朴素贝叶斯分类就是这样）
常见的模型大多是判别模型，生成模型有：朴素贝叶斯（需要求联合概率分布），隐马尔科夫HMM，高斯混合模型GMM，LDA（Latent Dirichlet Allocation）是一种文档主题生成模型，也称为一个三层贝叶斯概率模型。
生成式模型和判别式模型的判断。
一般来说判别式模型都是分类模型，
K近邻(KNN)
线性回归(Linear Regression)
逻辑斯蒂回归(Logistic Regression)
神经网络(NN)
支持向量机(SVM)
高斯过程(Gaussian Process)
条件随机场(CRF)
CART(Classification and Regression Tree)
都是属于判别式模型；
一般生成式模型：
朴素贝叶斯
混合高斯模型
隐马尔科夫模型(HMM)
贝叶斯网络
Sigmoid Belief Networks
马尔科夫随机场(Markov Random Fields)
深度信念网络(DBN)

2、SGD梯度下降是对单个样本来进行训练，SGD的使用与数据集规模无关，在线性回归于SVM中可以使用梯度下降，它的作用并不是有限的。

3、对于有监督和无监督的区分。
一般聚类、降维都属于无监督。分类（回归其实回归也是分类）都属于有监督，分类和聚类是不一样的。

4、对于线性和非线性的区分。
线性和非线性的区别：
线性linear，指量与量之间按比例、成直线的关系，在数学上可以理解为一阶导数为常数的函数；非线性non-linear则指不按比例、不成直线的关系，一阶导数不为常数。
非线性一般指数非一次。

5、模型的评价指标：
一般的评价指标为：P准确率、F1值和Rcall召回率
TP:表示：实际为正判断为正；
TN：实际为负判断为负；
FP：实际为正判断为负；
FN：实际为负判断为正；

p;准确率=TP/(TP+FP)
其中分母为实际的正的总数。
RCALL=TP/(TP+FN）
其中分母为判断为正的数目。
F1=2P*R/(P+R)

对于不平衡数据，我们需要额外增加判别的评价指标：
ROC曲线，通过绘制ROC曲线，计算AUC值来判断模型的好坏。
绘制ROC曲线，我们首先需要计算TPR和FPR两个指标的数值。
TPR的数值等于Recall的数值，TPR=Recall；
FPR=FP/(FP+TN) 就是你预测负错误的在所有预测为负中所占的比例。
以TPR为纵坐标，FPR为横坐标即可得到ROC曲线，ROC曲线与x轴围成的面积就是AUC的数值，一般AUC的数值都是在0.5-1之间，1属于理想状态，模型准确率最高；根据AUC的数值来判断模型的好坏，一般数值越大模型越好，如果AUC的数值小于0.5需要考虑是不是模型的标签搞反了，或者是模型的分类效果太差了。

6、CRF和HMM和MEMM模型

下列哪个不属于CRF模型对于HMM和MEMM模型的优势（）
正确答案: B
特征灵活
速度快
可容纳较多上下文信息
全局最优
解析;1）CRF没有HMM那样严格的独立性假设条件，因而可以容纳任意的上下文信息。特征设计灵活（与ME一样） ————与HMM比较
（2）同时，由于CRF计算全局最优输出节点的条件概率，它还克服了最大熵马尔可夫模型标记偏置（Label-bias）的缺点。 ————与MEMM比较
（3）CRF是在给定需要标记的观察序列的条件下，计算整个标记序列的联合概率分布，而不是在给定当前状态条件下，定义下一个状态的状态分布。
————与ME比较
缺点：训练代价大、复杂度高

7、关于行列式和伴随的计算：
在这里插入图片描述

8、对于集成学习：
集成学习主要分为四种：bagging boosting stracking blending
bagging算法：随机森林
boosting：adaboost、GBDT，xgboost
https://www.cnblogs.com/zongfa/p/9304353.html

9、影响聚类算法效果的主要原因有：（　）
正确答案: A B C
特征选取
模式相似性测度
分类准则
已知类别的样本质量
解析：监督算法使用的都是无标签的数据，与已知标签的数据无关。

10、以下()属于线性分类器最佳准则?
正确答案: A C D
感知准则函数
贝叶斯分类
支持向量机
Fisher准则
解析：线性分类器有三大类：感知器准则函数、SVM、Fisher准则，而贝叶斯分类器不是线性分类器。
感知器准则函数：代价函数J=-(W*X+w0)，分类的准则是最小化代价函数。感知器是神经网络（NN）的基础，网上有很多介绍。
SVM：支持向量机也是很经典的算法，优化目标是最大化间隔（margin），又称最大间隔分类器，是一种典型的线性分类器。（使用核函数可解决非线性问题）
Fisher准则：更广泛的称呼是线性判别分析（LDA），将所有样本投影到一条远点出发的直线，使得同类样本距离尽可能小，不同类样本距离尽可能大，具体为最大化“广义瑞利商”。
贝叶斯分类器：一种基于统计方法的分类器，要求先了解样本的分布特点（高斯、指数等），所以使用起来限制很多。在满足一些特定条件下，其优化目标与线性分类器有相同结构（同方差高斯分布等），其余条件下不是线性分类。

椒椒。

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
打赏
0
评论
机器学习-知识点-笔试-很全

1、模型：判别式模型举例：要确定一个羊是山羊还是绵羊，用判别模型的方法是从历史数据中学习到模型，然后通过提取这只羊的特征来预测出这只羊是山羊的概率，是绵羊的概率。（logistic回归，>0.5为正例，否则，为反例）生成式模型举例：利用生成模型是根据山羊的特征首先学习出一个山羊的模型，然后根据绵羊的特征学习出一个绵羊的模型，然后从这只羊中提取特征，放到山羊模型中看概率是多少，在放到绵羊模型中看概率是多少，哪个大就是哪个。（朴素贝叶斯分类就是这样）常见的模型大多是判别模型，生成模型有：朴素贝叶斯（
复制链接

扫一扫