机器学习常见问题

本文介绍了机器学习中的一些核心概念,包括判别式模型与生成式模型的区别、何时使用归一化/标准化、偏差和方差的含义,以及L1和L2正则化的区别及其防止过拟合的作用。此外,还探讨了决策树的构建过程和SVM的工作原理,以及两种方法解决非线性问题的方法。最后,提到了几种常见的降维技术,如PCA和LDA,并简述了朴素贝叶斯和卡尔曼滤波的基本思想。
摘要由CSDN通过智能技术生成
判别式模型和生成式模型的区别
  1. 判别方法:由数据直接学习决策函数Y=f(X), 或者由条件分布概率P(Y|X)作为预测模型,即判别模型。
  2. 生成方法:由数据学习联合概率密度分布函数P(X, Y),然后求出条件概率分布P(Y|X)作为预测的模型,即生成模型。
  3. 常见的判别模型有:线性回归,逻辑回归,支持向量机,传统神经网络,,K近邻,决策树,线性判别分析,条件随机场,集成学习boosting.
  4. 常见的生成模型有:朴素贝叶斯,隐马尔可夫模型,高斯混合模型和其他混合模型
  5. 生成模型最大化联合对数似然函数,判别模型最大化似然函数。 生成模型对特征的分布都做了一定的假设,如高斯判别模型假设特征分布满足多元高斯分布。生成模型的假设性也更强些,从后验分布的角度考虑问题,通常对x的分布做了一些假设
什么时候使用归一化/标准化
  1. 对输出结果范围有要求,用归一化
  2. 数据较为稳定,不存在极端的最大最小值,用归一化
  3. 存在噪声和异常值,用标准化
  4. 两者区别在于,归一化是统一到一定的区间(由极值决定),而标准化和整体样本有比较大的关系
  5. 常需要用到归一化/标准化的模型有: SVM(特征分布的假设), KNN(需要距离度量), PCA.
什么是偏差和方差

偏差:预测值的期望和真实值之间的差距,偏差越大,越偏离真实数据
方差:预测值的变化范围

L1和L2的区别,为什么能防止过拟合
  1. L1正则是拉普拉斯先验,L2正则是高斯先验
  2. L1会趋向于产生少量特征,而其他特征都是0;L2会选择更多特征,这些特征都会接近于0,。Lasso在特征选择的时候非常有用,Ridge就是一种规则化而已。
  3. 在所有特征中只有少数特征起重要作用的情况下,选择L1;大部分特征都起作用,而且作用比较平均,使用L2
  4. 过拟合的适合,拟合函数的系数往往非常大,因为需要考虑每一个点;在某些小的区间里,函数值变化很剧烈,这意味着相应的导数值也非常大,由于自变量可大可小,只能参数大了。所以说,正则化
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值
>