机器学习&深度学习常见问题

PS:图出不来,先凑合看

  1. 说一说正则化

正则化一般是为了解决模型中的过拟合问题,模型为了拟合数据而生成了很复杂的结构,于是加入正则项来惩罚复杂的模型,使得总体结构风险最小

  1. 说一说有哪些常用正则项,分别有什么作用

一般有L1,L2正则,

    1. L1正则是在模型中加入L1范数,也就是模型参数的绝对值和,L1范数可以是稀疏权值,所有有特征选择的作用(画图解释,优化函数是个圆,条件是直线来的)
      1. L1 在不可求导的地方怎么求解(近端梯度求解)
    2. L2正则是加入L2范数,模型参数的平方和,L2可以生成平滑的权值(如 权值1,3 和2,2 前者L2为10,后者8),L2会使优化求解的速度更快,会改善illcondition
      1. 改善病态条件值 可以使得模型稳定,
      2. 并且加入L2会因为将优化编程 λ强凸而加速求解速度(http://blog.csdn.net/zouxy09/article/details/24971995/ 有点没看懂,两张图不知道怎么画出来的)
  • 过拟合产生的原因
    1. 样本数据太少(增加数据,降维,划分验证)
    2. 样本数据抽样有问题(比如数据服从正态分布,你按均匀分布抽取)
    3. 噪声过大(清洗)---a,b,c都是数据方面
    4. 模型过于复杂,参数太多(正则)
    5. 决策树没有减枝(减枝)
      1. 决策树的剪枝是怎么减的,有这个分枝和没这个分枝的信息熵的差?没有分枝时信息熵更小就剪掉分枝(信息熵越小分类越准)
      2. 几种决策树的损失函数 ( ID3(信息增益),C4.5(信息增益比), CART(gini)),就是按照这个来分枝的 ?? 这个可不叫损失函数,就是按这个来分裂的

 


信息熵(信息熵越大,信息越混乱)

条件熵

信息增益(天生容易选择分枝多的属性,因为一般分枝后总的来说信息熵会小点,纯点)

信息增益比

基尼系数(表示了一种不纯度,值越小,越纯)

 


    1. 迭代次数果多,拟合了没有代表性的数据(不过度训练及时停止)d,e,f 是模型方面
  • 线性分类器与非线性分类器区别,优缺点
    1. 线性分类器:LR,线性回归,单层感知机,贝叶斯分类
    2. 非线性:树形的(决策树,RF, GBDT,多层感知,SVM(线性核))
    3. 一般线性函数简单易实现但拟合效果不好,非线性相反
  • 手推LR
    1. 要点:写出正确的目标函数,然后化简
  • 为啥LR要用sigmod函数
    1. sigimod函数表达出了一种这个点属于某一类的概率,其中 ceta_i,表示的是i这个特征对1的贡献比对0的贡献大多少 1类的贡献,比属于0类的贡献多多少,手推(https://www.zhihu.com/question/35322351
    2. 或者解释为满足伯努利分布(LR)本身满足(0-1伯努利)???为啥)时熵最大,就是sigimoid函数
  • LR 与 Liner SVM区别
    1. 都是线性分类器
    2. Liner SVM只收少数点影响,不直接依赖于数据,LR依赖于所有数据
    3. SVM结构风险最小化,不需要加正则,LR需要自己加正则
  • 描述极大似然估计MLE和最大后验估计MAP之间的区别,为什么MLE更容易过拟合(http://blog.csdn.net/ljn113399/article/details/68957062
    1. MLE最大似然估计是模型已定,参数未知
    2. MAP是考虑了先验分布,MLE本来就是均匀分布,比如从两个盒子里面抽取球,MLE假设从两个盒子里抽取的概率都是0.5,而MAP会考虑到拿到第一个盒子的概率是0.1,拿到第二个盒子的概率是0.9
  • 手推SVM
    1. 要点:找到目标函数推导
    2. 优化与对偶
  •  SVM为什么引入对偶
    1. 在这个优化问题中对偶问题更容易求解()
    2. 可以方便引入核函数()
  •  什么是对偶
    1. 优化理论中,每个线性规划都有与之对应的对偶问题,对偶问题有很多优良性质
      1. 无论原问题是否凸,对偶问题总是凸优化,凸优化的局部最优解就是全局最优解
      2. 满足kkt条件,对偶问题的解与原问题一致
      3. 对偶问题可以给原问题一个下界
  • 判别模型与生成模型
    1. 判别模型:直接学习决策函数,常见:K邻近,SVM,决策树,感知机,LDA(线性判别)
    2. 生成模型:研究产生训练数据的分布,由分布去估计,一般由数据学习联合概率密度分布,再求条件概率分布(朴素贝叶斯,HMM,)
  • SMO算法
    1. SVM可以用很多迭代的方法求解,但是当数据量很大时,这样求解任然很费时
    2. 选择凸二次规划的两个变量,其他变量不变,根据这两个变量来构建二次规划问题,这个二次规划关于这个变量的解会更接近原始解
  • 训练样本数少于特征数怎么解决
    1. 如果训练集很小,那么高偏差/低方差(不准确但是稳定)分类器(如朴素贝叶斯分类器)要优于低偏差/高方差分类器(如k近邻分类器),因为后者容易过拟合。然而,随着训练集的增大,低偏差/高方差分类器将开始胜出(它们具有较低的渐近误差),因为高偏差分类器不足以提供准确的模型。
    2. <
  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值