判别式模型和生成式模型的区别
- 判别方法:由数据直接学习决策函数Y=f(X), 或者由条件分布概率P(Y|X)作为预测模型,即判别模型。
- 生成方法:由数据学习联合概率密度分布函数P(X, Y),然后求出条件概率分布P(Y|X)作为预测的模型,即生成模型。
- 常见的判别模型有:线性回归,逻辑回归,支持向量机,传统神经网络,,K近邻,决策树,线性判别分析,条件随机场,集成学习boosting.
- 常见的生成模型有:朴素贝叶斯,隐马尔可夫模型,高斯混合模型和其他混合模型
- 生成模型最大化联合对数似然函数,判别模型最大化似然函数。 生成模型对特征的分布都做了一定的假设,如高斯判别模型假设特征分布满足多元高斯分布。生成模型的假设性也更强些,从后验分布的角度考虑问题,通常对x的分布做了一些假设
什么时候使用归一化/标准化
- 对输出结果范围有要求,用归一化
- 数据较为稳定,不存在极端的最大最小值,用归一化
- 存在噪声和异常值,用标准化
- 两者区别在于,归一化是统一到一定的区间(由极值决定),而标准化和整体样本有比较大的关系
- 常需要用到归一化/标准化的模型有: SVM(特征分布的假设), KNN(需要距离度量), PCA.
什么是偏差和方差
偏差:预测值的期望和真实值之间的差距,偏差越大,越偏离真实数据
方差:预测值的变化范围
L1和L2的区别,为什么能防止过拟合
- L1正则是拉普拉斯先验,L2正则是高斯先验
- L1会趋向于产生少量特征,而其他特征都是0;L2会选择更多特征,这些特征都会接近于0,。Lasso在特征选择的时候非常有用,Ridge就是一种规则化而已。
- 在所有特征中只有少数特征起重要作用的情况下,选择L1;大部分特征都起作用,而且作用比较平均,使用L2
- 过拟合的适合,拟合函数的系数往往非常大,因为需要考虑每一个点;在某些小的区间里,函数值变化很剧烈,这意味着相应的导数值也非常大,由于自变量可大可小,只能参数大了。所以说,正则化