机器学习常见问题

最新推荐文章于 2023-11-27 09:30:06 发布

SJTU 路子

最新推荐文章于 2023-11-27 09:30:06 发布

阅读量232

点赞数 1

分类专栏： ML 文章标签：机器学习 pytorch

本文链接：https://blog.csdn.net/qq_34826149/article/details/109506847

版权

本文介绍了机器学习中的一些核心概念，包括判别式模型与生成式模型的区别、何时使用归一化/标准化、偏差和方差的含义，以及L1和L2正则化的区别及其防止过拟合的作用。此外，还探讨了决策树的构建过程和SVM的工作原理，以及两种方法解决非线性问题的方法。最后，提到了几种常见的降维技术，如PCA和LDA，并简述了朴素贝叶斯和卡尔曼滤波的基本思想。

摘要由CSDN通过智能技术生成

判别式模型和生成式模型的区别

判别方法：由数据直接学习决策函数Y=f(X), 或者由条件分布概率P(Y|X)作为预测模型，即判别模型。
生成方法：由数据学习联合概率密度分布函数P(X, Y)，然后求出条件概率分布P(Y|X）作为预测的模型，即生成模型。
常见的判别模型有：线性回归，逻辑回归，支持向量机，传统神经网络，，K近邻，决策树，线性判别分析，条件随机场，集成学习boosting.
常见的生成模型有：朴素贝叶斯，隐马尔可夫模型，高斯混合模型和其他混合模型
生成模型最大化联合对数似然函数，判别模型最大化似然函数。生成模型对特征的分布都做了一定的假设，如高斯判别模型假设特征分布满足多元高斯分布。生成模型的假设性也更强些，从后验分布的角度考虑问题，通常对x的分布做了一些假设

什么时候使用归一化/标准化

对输出结果范围有要求，用归一化
数据较为稳定，不存在极端的最大最小值，用归一化
存在噪声和异常值，用标准化
两者区别在于，归一化是统一到一定的区间（由极值决定），而标准化和整体样本有比较大的关系
常需要用到归一化/标准化的模型有： SVM(特征分布的假设）， KNN(需要距离度量), PCA.

什么是偏差和方差

偏差：预测值的期望和真实值之间的差距，偏差越大，越偏离真实数据
方差：预测值的变化范围

L1和L2的区别，为什么能防止过拟合

L1正则是拉普拉斯先验，L2正则是高斯先验
L1会趋向于产生少量特征，而其他特征都是0；L2会选择更多特征，这些特征都会接近于0,。Lasso在特征选择的时候非常有用，Ridge就是一种规则化而已。
在所有特征中只有少数特征起重要作用的情况下，选择L1；大部分特征都起作用，而且作用比较平均，使用L2
过拟合的适合，拟合函数的系数往往非常大，因为需要考虑每一个点；在某些小的区间里，函数值变化很剧烈，这意味着相应的导数值也非常大，由于自变量可大可小，只能参数大了。所以说，正则化