python-机器学习练习 (7-20)【1】

Date: 2019-07-20

1. 一监狱人脸识别准入系统用来识别待进入人员的身份,此系统一共包括识别4种不同的人员:狱警,小偷,送餐员,其他。下面哪种学习方法最适合此种应用需求:(多分类问题)。

补充 :

其实单要从实用的角度来讲,二分类足够了,因为人脸识别系统只需要做到识别:合法身份和非法身份,前者准入,后者不准入或者报警。

但是从题目本意来说,是一个多分类问题。

2. 在Logistic Regression 中,如果同时加入L1和L2范数,会产生什么效果(可以做特征选择,并在一定程度上防止过拟合)

补充:

L1范数是指向量中各个元素绝对值之和,用于特征选择

L2范数 是指向量各元素的平方和然后求平方根,用于 防止过拟合,提升模型的泛化能力;

L1范数具有系数解的特性,但是要注意的是,L1没有选到的特征不代表不重要,原因是两个高相关性的特征可能只保留一个。如果需要确定哪个特征重要,再通过交叉验证。
为什么L1,L2范数可以防止过拟合呢
在代价函数后面加上正则项,L1即是Losso回归,L2是岭回归
但是它为什么能防止过拟合呢?
奥卡姆剃刀原理:能很好的拟合数据且模型简单
模型参数在更新时,正则项可使参数的绝对值趋于0,使得部分参数为0,降低了模型的复杂度(模型的复杂度由参数决定),从而防止了过拟合。提高模型的泛化能力

3. SVM CRF 最大熵 是监督学习;k-means是无监督学习。

补充:

简单来说,基于已知类别的样本调整 分类 器 的参数,使其达到所要求性能的过程,称为监督学习;对没有分类标记的训练样本进行学习,以发现训练样本集中的结构性知识的过程,成为非监督学习。

其中,k-means为是最为经典的基于划分的无监督学习聚类方法。

CRF是条件随机场,主要用在语音识别和文本识别,前提,一个标记了的观察序列,计算需要验证的标签序列的联合概率。这里就有了标记集合和识别集合的概念,所以是监督室学习。

4. k-means是一种经典的聚类算法。

5. 深度学习是当前很热门的机器学习算法,在深度学习中,涉及到大量的矩阵相乘,现在需要计算三个稠密矩阵A,B,C的乘积ABC,假设三个矩阵的尺寸分别为m*n,n*p,p*q,且m<n<p<q,以下计算顺序效率最高的是()

(AB)C和A(BC)中的(AB)C. (解析见昨天的博客)

6. 以下机器学习中,在数据预处理时,不需要考虑归一化处理的是:(C)

A.logistic回归

B.SVM

C.树形模型(树模型,对数据量纲不敏感,因此不需要数据归一化 )

D.神经网络

解释:

当使用梯度下降法寻求最优解时,很有可能走“之字型”路线(垂直等高线走),从而导致需要迭代很多次才能收敛;在梯度下降进行求解时能较快的收敛。

* 所以,使用梯度下降法求解最优解的模型,归一化就非常重要!knn,logistc回归,gbdt,xgboost,adaboost

* 还有一些模型是基于距离的,所以量纲对模型影响较大,就需要归一化数据,*处理特征之间的权重问题,这样可以提高计算精度。比如,knn,svm,kmeans,k近邻,主成分分析

* 神经网络对数据分布本无要求,但归一化可以加快训练数据

* 那么不需要归一化处理的模型,决策树,随机森林。他们因为它们不关心变量的值,而是关心变量的分布和变量之间的条件概率

7. 有两个样本点,第一个点为正样本,它的特征向量是(0,-1);第二个点为负样本,它的特征向量是(2,3),从这两个样本点组成的训练集构建一个线性SVM分类器的分类面方程是(x+2y=3)

解析见昨天的博客

8. 

以下几种模型方法属于判别式模型的有(2,3)

1)混合高斯模型

2)条件随机场模型

3)区分度训练

4)隐马尔科夫模型

* 产生式模型(Generative Model)与判别式模型(Discrimitive Model)是分类器常遇到的概念,它们的区别在于:

对于输入x,类别标签y:
产生式模型估计它们的联合概率分布P(x,y)
判别式模型估计条件概率分布P(y|x)

产生式模型可以根据贝叶斯公式得到判别式模型,但反过来不行。

* 公式上看

生成模型: 学习时先得到 P(x,y),继而得到 P(y|x)。预测时应用最大后验概率法(MAP)得到预测类别 y。 

判别模型: 直接学习得到P(y|x),利用MAP得到 y。或者直接学得一个映射函数 y=f(x)。

直观上看

生成模型: 关注数据是如何生成的 
判别模型: 关注类别之间的差别

                           

9. 考虑如下数据集,其中Customer ID(顾客id),Transaction ID(事务id),Items Bought(购买项)。如果将每个事务id看成一个购物篮,计算项集{e}, {b, d}, {b, d, e}的支持度:

答案: s({e}) =0.8s({b, d})= 0.2s({b, d, e})= 0.2

置信度计算规则为: 同时购买商品A和商品B的交易次数/购买了商品A的次数

支持度计算规则为: 同时购买了商品A和商品B的交易次数/总的交易次数

10. 

如下表是用户是否使用某产品的调查结果(学历)  (解析见昨天的博客)

UID 年龄 地区 学历 收入 用户是否使用调查产品
1 北方 博士
2 北方 本科
3 南方 本科
4 北方 研究生


请计算年龄,地区,学历,收入中对用户是否使用调查产品信息增益最大的属性(Log23≈0.63)

11.  在其他条件不变的前提下,以下哪种做法容易引起机器学习中的过拟合问题(D)

A.增加训练集量

B.减少神经网络隐藏层节点数

C. 删除稀疏的特征 S

D.SVM算法中使用高斯核/RBF核代替线性核

解释: 

造成过拟合的原因主要有:

1、训练数据不足,有限的训练数据

2、训练模型过度导致模型非常复杂,泛化能力差

选项A增加训练集可以解决训练数据不足的问题,防止过拟合

选项B对应使得模型复杂度降低,防止过拟合

选项C类似主成分分析,降低数据的特征维度,使得模型复杂度降低,防止过拟合

选项D使得模型的复杂化,会充分训练数据导致过拟合

12. 关于 logit 回归和 SVM 不正确的是(A)

A.Logit回归目标函数是最小化后验概率

B.Logit回归可以用于预测事件发生概率的大小

C.SVM目标是结构风险最小化

D,SVM可以有效避免模型过拟合

解释:A. Logit回归本质上是一种根据样本对权值进行极大似然估计的方法,而后验概率正比于先验概率和似然函数的乘积。logit仅仅是最大化

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值