1、过拟合的解决方法
- 更多的训练集;
- 加入正则化
2、L1正则化和L2正则化的区别
- L1是取向量每个原色的绝对值和,L2是取向量每个元素的平方和的平方根;
- L1正则化是截断效应,它可以使一些特征的系数变小,甚至可以让一些绝对值较小的系数直接变成0;
- L2正则化在不抛弃人任何一个特征的情况下,缩小特征的系数,使得模型相对比较稳定,L2正则化会保留更多的特征
3、SVM为什么引入对偶问题
- 对偶问题更容易求解;
- 自然地引入核函数,将SVM扩展到非线性
4、生成模型和判别模型的区别
- 生成模型:根据数据学习得到联合分布概率P(X,Y),然后再求出条件概率P(Y|X)=P(X,Y) / P(X),常见的生成模型比如朴素贝叶斯;
- 判别模型:根据数据直接学习决策函数 f(x) 或者条件概率分布 P(Y|X),常见的判别模型有KNN、决策树、逻辑回归、SVM等
5、数据不均衡的处理方法
- 当正负样本的数据量都很大时,可以采用下采样,将数量更多的那一类的样本采样和数量少的那一类接近;
- 当正样本很多,负样本很少时,可以增大负样本的权重
未完待续。。。