python-机器学习练习 (7-20)【1】

最新推荐文章于 2024-06-28 17:30:00 发布

Jasminexjf

最新推荐文章于 2024-06-28 17:30:00 发布

阅读量6.3w

点赞数 2

分类专栏：找工作大全

本文链接：https://blog.csdn.net/Jasminexjf/article/details/96564806

版权

Date: 2019-07-20

1. 一监狱人脸识别准入系统用来识别待进入人员的身份，此系统一共包括识别4种不同的人员：狱警，小偷，送餐员，其他。下面哪种学习方法最适合此种应用需求：（多分类问题）。

补充：

其实单要从实用的角度来讲，二分类足够了，因为人脸识别系统只需要做到识别：合法身份和非法身份，前者准入，后者不准入或者报警。

但是从题目本意来说，是一个多分类问题。

2. 在Logistic Regression 中,如果同时加入L1和L2范数,会产生什么效果(可以做特征选择,并在一定程度上防止过拟合)

补充：

L1范数是指向量中各个元素绝对值之和，用于特征选择

L2范数是指向量各元素的平方和然后求平方根，用于防止过拟合，提升模型的泛化能力；

Ｌ１范数具有系数解的特性，但是要注意的是，Ｌ１没有选到的特征不代表不重要，原因是两个高相关性的特征可能只保留一个。如果需要确定哪个特征重要，再通过交叉验证。
为什么L1，L2范数可以防止过拟合呢
在代价函数后面加上正则项，Ｌ１即是Ｌｏｓｓｏ回归，Ｌ２是岭回归
但是它为什么能防止过拟合呢？
奥卡姆剃刀原理：能很好的拟合数据且模型简单
模型参数在更新时，正则项可使参数的绝对值趋于０，使得部分参数为０，降低了模型的复杂度（模型的复杂度由参数决定），从而防止了过拟合。提高模型的泛化能力

3. SVM CRF 最大熵是监督学习；k-means是无监督学习。

补充：

简单来说，基于已知类别的样本调整分类器的参数，使其达到所要求性能的过程，称为监督学习；对没有分类标记的训练样本进行学习，以发现训练样本集中的结构性知识的过程，成为非监督学习。

其中，k-means为是最为经典的基于划分的无监督学习聚类方法。

CRF是条件随机场，主要用在语音识别和文本识别，前提，一个标记了的观察序列，计算需要验证的标签序列的联合概率。这里就有了标记集合和识别集合的概念，所以是监督室学习。

4. k-means是一种经典的聚类算法。

5. 深度学习是当前很热门的机器学习算法，在深度学习中，涉及到大量的矩阵相乘，现在需要计算三个稠密矩阵A,B,C的乘积ABC,假设三个矩阵的尺寸分别为m*n，n*p，p*q，且m<n<p<q，以下计算顺序效率最高的是（）

(AB)C和A(BC)中的(AB)C. （解析见昨天的博客）

6. 以下机器学习中，在数据预处理时，不需要考虑归一化处理的是：(C)

A.logistic回归

B.SVM

C.树形模型（树模型，对数据量纲不敏感，因此不需要数据归一化）

D.神经网络

解释：

当使用梯度下降法寻求最优解时，很有可能走“之字型”路线（垂直等高线走），从而导致需要迭代很多次才能收敛；在梯度下降进行求解时能较快的收敛。

* 所以，使用梯度下降法求解最优解的模型，归一化就非常重要！knn，logistc回归，gbdt，xgboost，adaboost

* 还有一些模型是基于距离的，所以量纲对模型影响较大，就需要归一化数据，*处理特征之间的权重问题，这样可以提高计算精度。比如，knn，svm，kmeans，k近邻，主成分分析；

* 神经网络对数据分布本无要求，但归一化可以加快训练数据；

* 那么不需要归一化处理的模型，决策树，随机森林。他们因为它们不关心变量的值，而是关心变量的分布和变量之间的条件概率

7. 有两个样本点，第一个点为正样本,它的特征向量是(0,-1);第二个点为负样本,它的特征向量是(2,3),从这两个样本点组成的训练集构建一个线性SVM分类器的分类面方程是(x+2y=3)

解析见昨天的博客

以下几种模型方法属于判别式模型的有（2，3）

1)混合高斯模型

2)条件随机场模型

3)区分度训练

4)隐马尔科夫模型

* 产生式模型(Generative Model)与判别式模型(Discrimitive Model)是分类器常遇到的概念，它们的区别在于：

对于输入x，类别标签y：
产生式模型估计它们的联合概率分布P(x,y)
判别式模型估计条件概率分布P(y|x)

产生式模型可以根据贝叶斯公式得到判别式模型，但反过来不行。

* 公式上看

生成模型：学习时先得到 P(x,y)，继而得到 P(y|x)。预测时应用最大后验概率法（MAP）得到预测类别 y。

判别模型：直接学习得到P(y|x)，利用MAP得到 y。或者直接学得一个映射函数 y=f(x)。

直观上看

生成模型：关注数据是如何生成的
判别模型：关注类别之间的差别

9. 考虑如下数据集，其中Customer ID(顾客id),Transaction ID(事务id),Items Bought(购买项)。如果将每个事务id看成一个购物篮，计算项集{e}, {b, d}, {b, d, e}的支持度:

答案： s({e}) =0.8s({b, d})= 0.2s({b, d, e})= 0.2

置信度计算规则为：同时购买商品A和商品B的交易次数/购买了商品A的次数

支持度计算规则为：同时购买了商品A和商品B的交易次数/总的交易次数

10.

如下表是用户是否使用某产品的调查结果（学历）（解析见昨天的博客）

UID	年龄	地区	学历	收入	用户是否使用调查产品
1	低	北方	博士	低	是
2	高	北方	本科	中	否
3	低	南方	本科	高	否
4	高	北方	研究生	中	是

请计算年龄，地区，学历，收入中对用户是否使用调查产品信息增益最大的属性（Log23≈0.63）

11. 在其他条件不变的前提下，以下哪种做法容易引起机器学习中的过拟合问题（D）

A.增加训练集量

B.减少神经网络隐藏层节点数

C. 删除稀疏的特征 S

D.SVM算法中使用高斯核/RBF核代替线性核

解释：

造成过拟合的原因主要有：

1、训练数据不足，有限的训练数据

2、训练模型过度导致模型非常复杂，泛化能力差

选项A增加训练集可以解决训练数据不足的问题，防止过拟合

选项B对应使得模型复杂度降低，防止过拟合

选项C类似主成分分析，降低数据的特征维度，使得模型复杂度降低，防止过拟合

选项D使得模型的复杂化，会充分训练数据导致过拟合

12. 关于 logit 回归和 SVM 不正确的是（A）

A.Logit回归目标函数是最小化后验概率

B.Logit回归可以用于预测事件发生概率的大小

C.SVM目标是结构风险最小化

D,SVM可以有效避免模型过拟合

解释：A. Logit回归本质上是一种根据样本对权值进行极大似然估计的方法，而后验概率正比于先验概率和似然函数的乘积。logit仅仅是最大化

最低0.47元/天解锁文章

Jasminexjf

关注

2
点赞
踩
13

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录