参考链接:https://blog.csdn.net/v_july_v/article/details/78121924
https://blog.csdn.net/liuxiao214/article/details/83043170
1. 有哪些激活函数,各自的优缺点?
2. 过拟合(overfitting)是什么?怎么处理过拟合?
-
正则化(Regularization)
- dropout
- batch normalization:这个方法给每层的输出都做一次归一化(网络上相当于加了一个线性变换层), 使得下一层的输入接近高斯分布. 这个方法相当于下一层的w训练时避免了其输入以偏概全, 因而泛化效果非常好.
- early stopping:交叉验证的错误率最小时可以认为泛化性能最好, 这时候训练错误率虽然还在继续下降, 但也得终止继续训练了.
- data augmentation
- 特征选择/特征降维
3. 怎么处理数据不均衡问题?
4. 全连接层的作用?
全局平均池化
5. 有哪些损失函数?
6. 线性回归与逻辑回归的区别?
7. CNN为什么用ReLU,为什么不用sigmoid?
8. 如何用softmax和sigmoid来做多标签分类?
设置一个阈值,比如0.3, 取大于这个阈值的。
9. 生成模型与判别模型的区别?
10. SVM核函数?
主要有linear核,多项式内核,径向基内核(RBF),sigmoid核。
Linear核:主要用于线性可分的情形。参数少,速度快,对于一般数据,分类效果已经很理想了。
这些函数中应用最广的应该就是RBF核了,主要用于线性不可分的情形。无论是小样本还是大样本,高维还是低维等情况,RBF核函数均适用,它相比其他的函数有一下优点:
1)RBF核函数可以将一个样本映射到一个更高维的空间,而且线性核函数是RBF的一个特例,也就是说如果考虑使用RBF,那么就没有必要考虑线性核函数了。
2)与多项式核函数相比,RBF需要确定的参数要少,核函数参数的多少直接影响函数的复杂程度。另外,当多项式的阶数比较高时,核矩阵的元素值将趋于无穷大或无穷小,而RBF则在上,会减少数值的计算困难。
3)对于某些参数,RBF和sigmoid具有相似的性能。
11. 降维方法有哪些?
12. 聚类算法有哪些,各自优缺点?
13. 强化学习算法有哪些?
14. 请简要介绍下SVM?
目标是为确定一个分类超平面,从而将不同的数据分隔开。
15. 在k-means或kNN,我们常用欧氏距离来计算最近的邻居之间的距离,有时也用曼哈顿距离,请对比下这两种距离的差别
欧氏距离虽然很有用,但也有明显的缺点。它将样品的不同属性(即各指标或各变量量纲)之间的差别等同看待,这一点有时不能满足实际要求。
通俗来讲,想象你在曼哈顿要从一个十字路口开车到另外一个十字路口,驾驶距离是两点间的直线距离吗?显然不是,除非你能穿越大楼。而实际驾驶距离就是这个“曼哈顿距离”,这也是曼哈顿距离名称的来源, 同时,曼哈顿距离也称为城市街区距离(City Block distance)。
16. CNN的卷积核是单层的还是多层的?
卷积核(filter)一般是3D多层的,除了面积参数, 比如3x3之外, 还有厚度参数H(2D的视为厚度1).
17. KNN中的K如何选取的?
K值的减小就意味着整体模型变得复杂,容易发生过拟合;K值的增大就意味着整体的模型变得简单,学习的近似误差会增大。
在实际应用中,K值一般取一个比较小的数值,例如采用交叉验证法来选择最优的K值。
18. 机器学习中,为何要经常对数据做归一化?
1)归一化后加快了梯度下降求最优解的速度;2)归一化有可能提高精度。
19. 归一化的类型?
1)线性归一化
2)标准差归一化:经过处理的数据符合标准正态分布,即均值为0,标准差为1
3)非线性归一化