开学考核改错

第1题 当数据有缺失值的时候, 你认为处理缺失值比较合理的方法(缺失值举例:泰坦尼克号幸存者数据中 有年龄 性别 职业 是否存活 四个特征 但某些样本的职业特征为空)

答:(1)均值,极值,众数,中位数填补
(2)回归决策树预测,把label作为特征也加入到特征里来
3)如果说有缺失值的样本比例比较小的话,也可以将有缺失值的数据删除

第2题 请简述随机梯度下降,批梯度下降的区别和各自的优点
答:
(1)随机就是计算一个样本的loss之后就进行梯度下降
a)优点:迭代速度快,可以跳出局部最小(因为震荡大)
b)缺点:收敛速度慢(因为震荡大)
(2)批梯度下降就是一批样本计算loss求均值后再反向传播(批用英文 batch表示)数值常常取2的n次方如2,4,8,16,32,64等。。。
a)优点:收敛快,震荡小
b)缺点:迭代速度慢,

第3题 线性判别分析(LDA)中,我们想要最优化的两个数值是什么(聚类算法也是以这两个数据为目标进行优化)
答: 类内距离和类间距离(类间尽可能大,类内尽可能小)

第4题 类别不平衡问题会带来什么影响,如何有效处理类别不平衡的问题。
答:
类别不平衡(class-imbalance)就是指分类任务中不同类别的训练样例数目差别很大的情况

(1)更改损失函数,对少数项的惩罚力度加大
(2)下采样,上采样(过采样,欠采样)
(3)Label smoothing

第5题 什么是k折交叉验证
答: 将可用数据划分为K个分区(K取5或10),实例化K个相同的模型,将每个模型在K-1个分区作为训练集,并在剩下的一个分区当做验证集。模型的验证分数等于K个验证分数的平均值。

第6题 请写出交叉熵损失函数(CrossEntropyLoss)
答:
在二分类的情况下:
在这里插入图片描述
在多分类的情况下:
在这里插入图片描述

第7题 我们知道信息量的多少由信息的不确定性来衡量,信息量越大,信息的不确定性越大,信息熵的值越大。信息量越少,信息的不确定性越小,信息熵的值越小。请写出信息熵的公式。注:设集合D中第k类样本所占的比例为Pk(k=1,2,3,……,m)。
答:在这里插入图片描述

第8题 写出你知道的决策树算法
答: ID3算法、C4.5算法、CART算法

第9题 单变量决策树的分类边界是什么样的: A
A.分类边界的每一段都是与坐标轴平行的
B.分类边界的每一段都是可以弯曲的曲线
C.分类边界的每一段都是倾斜的直线
D.分类边界的形状可以是曲线,也可以是直线
答: A

第10题 决策树模型如果过拟合,可以剪枝。线性归回过拟合可以加入正则项,那么为什么加入正则项可以有效防止过拟合

答: 使模型变简单,向高偏差方向移动

第11题 如何对决策树进行预剪枝(只需要回答预剪枝)

答: 预剪枝是指在决策树在生成过程中,对每个结点在划分前进行估计,若当前结点的划分不能带来决策树泛化性能的提升,则停止划分并将当前结点标记为叶结点。

第12题 决策树需要进行归一化处理吗
答: 不需要

第13题 下面回归模型中的哪个步骤/假设最能影响过拟合和欠拟合之间的平衡因素: A
A. 多项式的阶数
B. 是否通过矩阵求逆或梯度下降学习权重
C.使用常数项

第14题 关于MLE(最大似然估计),下面哪一项或几项说法是正确的 1,3

1 MLE可能不存在
2 MLE总是存在
3 如果MLE存在,可能不是唯一的
4 如果MLE存在,肯定是唯一的

第16题 常见的激活函数有那些?写出其公式并画出函数曲线
答:
在这里插入图片描述

第17题 画出三层神经网络的结构图。
答:
在这里插入图片描述

第18题 如何避免局部最优。
答:
[1]使用随机梯度下降代替真正的梯度下降。
[2]设置冲量。
[3]不同的初始权值进行训练。

第19题 一个完整机器学习项目的流程。
答:
① 实际问题抽象成数学问题
② 获取数据
③ 特征工程(数据预处理、数据清洗、筛选显著特征、摒弃非显著特征等)
④ 训练模型、诊断、调优
⑤ 模型融合
⑥ 上线运行

第20题 什么是前馈神经网络
答:
前馈神经网络是一种最简单的神经网络,各神经元分层排列。每个神经元只与前一层的神经元相连。接收前一层的输出,并输出给下一层.各层间没有反馈。

第21题 分类问题选择什么激活函数,原因是?
答: Sigmoid函数,它直接对分类可能性进行建模,无需事先假设数据分布,它不是仅预测出“类别”,而是得到近似概率预测,而且对率回归求解的目标函数是任意阶可导的凸函数,有很好的数学性质。

第22题 回归问题选择什么激活函数,原因是?
答:

第23题 池化是什么,有几类池化,分别解释各个池化的过程。
答:
pooling的结果是使得特征减少,参数减少,但pooling的目的并不仅在于此。
pooling目的是为了保持某种不变性(旋转、平移、伸缩等)
常用的有mean-pooling,max-pooling和Stochastic-pooling三种。

mean-pooling,即对邻域内特征点只求平均。
max-pooling,即对邻域内特征点取最大。
Stochastic-pooling则介于两者之间,通过对像素点按照数值大小赋予概率,再按照概率进行亚采样,在平均意义上,与mean-pooling近似,在局部意义上,则服从max-pooling的准则。

第24题 参数和超参数的区别是什么?
答: 超参数就是学习率

第25题 有几种策略缓解BP网络过拟合?分别是?
答:
两种策略
一是“早停” : 将数据分成训练集和验证集。训练集用于计算梯度、更新连接权和阈值,验证集用来估计误差,若训练集误差降低但验证集误差升高则停止训练,同时返回具有最小验证集误差的连接权和阈值
二是“正则化”:基本思想就是在误差目标函数中增加一个用于描述网络复杂度的部分,例如连接权和阈值的平方和。

第26题 为什么在机器学习中引入激活函数,例如在房价预测中加入激活函数

答: 线性层无法解决非线性问题,如在预测房价问题中,如果不使用激活函数,则房价可能计算成负值,这也与实际不符

第27题 用于识别猫的图像是“结构化”数据的一个例子,因为它在计算机中被表示为结构化矩阵,这句话对吗?
答: 不对

第28题 评价一个模型的好坏一般用什么来评价?
答:
查准率和查全率
ROC曲线

第29题 梯度下降法是什么?
答:
梯度下降法的基本思想可以类比为一个下山的过程。
假设这样一个场景:一个人被困在山上,需要从山上下来(i.e. 找到山的最低点,也就是山谷)。但此时山上的浓雾很大,导致可视度很低。因此,下山的路径就无法确定,他必须利用自己周围的信息去找到下山的路径。这个时候,他就可以利用梯度下降算法来帮助自己下山。具体来说就是,以他当前的所处的位置为基准,寻找这个位置最陡峭的地方,然后朝着山的高度下降的地方走,(同理,如果我们的目标是上山,也就是爬到山顶,那么此时应该是朝着最陡峭的方向往上走)。然后每走一段距离,都反复采用同一个方法,最后就能成功的抵达山谷。

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值