机器学习&深度学习常见问题

最新推荐文章于 2022-03-12 10:53:08 发布

Suncicie

最新推荐文章于 2022-03-12 10:53:08 发布

阅读量415

点赞数 1

分类专栏：机器学习

本文链接：https://blog.csdn.net/liufang0109/article/details/86755674

版权

本文详细探讨了机器学习和深度学习中的常见问题，包括正则化、过拟合、L1和L2正则化的作用，以及决策树、SVM、逻辑回归、梯度提升和神经网络的相关概念。同时，还讨论了如何处理样本不足、特征选择、模型选择等问题，以及优化方法、损失函数、评估指标和特征工程等方面的知识。

摘要由CSDN通过智能技术生成

PS：图出不来，先凑合看

说一说正则化

正则化一般是为了解决模型中的过拟合问题，模型为了拟合数据而生成了很复杂的结构，于是加入正则项来惩罚复杂的模型，使得总体结构风险最小

说一说有哪些常用正则项，分别有什么作用

一般有L1,L2正则，

1. L1正则是在模型中加入L1范数，也就是模型参数的绝对值和，L1范数可以是稀疏权值，所有有特征选择的作用（画图解释，优化函数是个圆，条件是直线来的）
  1. L1 在不可求导的地方怎么求解（近端梯度求解）
2. L2正则是加入L2范数，模型参数的平方和，L2可以生成平滑的权值（如权值1，3 和2，2 前者L2为10，后者8），L2会使优化求解的速度更快，会改善illcondition
  1. 改善病态条件值可以使得模型稳定，
  2. 并且加入L2会因为将优化编程 λ强凸而加速求解速度（http://blog.csdn.net/zouxy09/article/details/24971995/ 有点没看懂，两张图不知道怎么画出来的）
过拟合产生的原因
1. 样本数据太少（增加数据，降维，划分验证）
2. 样本数据抽样有问题（比如数据服从正态分布，你按均匀分布抽取）
3. 噪声过大（清洗）---a,b,c都是数据方面
4. 模型过于复杂，参数太多（正则）
5. 决策树没有减枝（减枝）
  1. 决策树的剪枝是怎么减的，有这个分枝和没这个分枝的信息熵的差？没有分枝时信息熵更小就剪掉分枝（信息熵越小分类越准）
  2. 几种决策树的损失函数（ ID3(信息增益)，C4.5（信息增益比）， CART(gini)），就是按照这个来分枝的？？这个可不叫损失函数，就是按这个来分裂的

信息熵（信息熵越大，信息越混乱）

条件熵

信息增益（天生容易选择分枝多的属性，因为一般分枝后总的来说信息熵会小点，纯点）

信息增益比

基尼系数（表示了一种不纯度，值越小，越纯）

1. 迭代次数果多，拟合了没有代表性的数据（不过度训练及时停止）d,e,f 是模型方面
线性分类器与非线性分类器区别，优缺点
1. 线性分类器：LR，线性回归，单层感知机，贝叶斯分类
2. 非线性：树形的（决策树，RF， GBDT，多层感知，SVM（线性核））
3. 一般线性函数简单易实现但拟合效果不好，非线性相反
手推LR
1. 要点：写出正确的目标函数，然后化简
为啥LR要用sigmod函数
1. sigimod函数表达出了一种这个点属于某一类的概率，其中 ceta_i,表示的是i这个特征对1的贡献比对0的贡献大多少 1类的贡献，比属于0类的贡献多多少，手推（https://www.zhihu.com/question/35322351）
2. 或者解释为满足伯努利分布（LR）本身满足（0-1伯努利）？？？为啥）时熵最大，就是sigimoid函数
LR 与 Liner SVM区别
1. 都是线性分类器
2. Liner SVM只收少数点影响，不直接依赖于数据，LR依赖于所有数据
3. SVM结构风险最小化，不需要加正则，LR需要自己加正则
描述极大似然估计MLE和最大后验估计MAP之间的区别，为什么MLE更容易过拟合（http://blog.csdn.net/ljn113399/article/details/68957062）
1. MLE最大似然估计是模型已定，参数未知
2. MAP是考虑了先验分布，MLE本来就是均匀分布，比如从两个盒子里面抽取球，MLE假设从两个盒子里抽取的概率都是0.5，而MAP会考虑到拿到第一个盒子的概率是0.1，拿到第二个盒子的概率是0.9
手推SVM
1. 要点：找到目标函数推导
2. 优化与对偶
SVM为什么引入对偶
1. 在这个优化问题中对偶问题更容易求解（）
2. 可以方便引入核函数（）
什么是对偶
1. 优化理论中，每个线性规划都有与之对应的对偶问题，对偶问题有很多优良性质
  1. 无论原问题是否凸，对偶问题总是凸优化，凸优化的局部最优解就是全局最优解
  2. 满足kkt条件，对偶问题的解与原问题一致
  3. 对偶问题可以给原问题一个下界
判别模型与生成模型
1. 判别模型：直接学习决策函数，常见：K邻近，SVM，决策树，感知机，LDA(线性判别)
2. 生成模型：研究产生训练数据的分布，由分布去估计，一般由数据学习联合概率密度分布，再求条件概率分布（朴素贝叶斯，HMM，）
SMO算法
1. SVM可以用很多迭代的方法求解，但是当数据量很大时，这样求解任然很费时
2. 选择凸二次规划的两个变量，其他变量不变，根据这两个变量来构建二次规划问题，这个二次规划关于这个变量的解会更接近原始解
训练样本数少于特征数怎么解决
1. 如果训练集很小，那么高偏差/低方差（不准确但是稳定）分类器（如朴素贝叶斯分类器）要优于低偏差/高方差分类器（如k近邻分类器），因为后者容易过拟合。然而，随着训练集的增大，低偏差/高方差分类器将开始胜出（它们具有较低的渐近误差），因为高偏差分类器不足以提供准确的模型。

最低0.47元/天解锁文章

Suncicie

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
机器学习&深度学习常见问题

PS：图出不来，先凑合看说一说正则化正则化一般是为了解决模型中的过拟合问题，模型为了拟合数据而生成了很复杂的结构，于是加入正则项来惩罚复杂的模型，使得总体结构风险最小说一说有哪些常用正则项，分别有什么作用一般有L1,L2正则， L1正则是在模型中加入L1范数，也就是模型参数的绝对值和，L1范数可以是稀疏权值，所有有特征选择的作用（画图解释，优化函数是个圆，条件是直线来的） L...
复制链接

扫一扫

专栏目录