关于一些常见的问题
一. SVM和逻辑回归的区别 参考博客1
1.LR采用log损失, SVM采用合页损失.
2. LR对异常值敏感, SVM对异常值不敏感.
3.LR需要较多的样本进行训练, 而训练集较小时, SVM也使适用
4.LR模型找到的那个超平面, 是尽量让所有的点都远离他, 而SVM寻找的那个超平面只让最靠近中间分割线的那些点尽量远离, 即只用到那些支持向量的样本.
5.对非线性问题的处理方式不同, LR主要靠特征构造, 必须组合交叉特征, 特征离散化. SVM也可以这样, 还可以通过kernel
二. 关于鲁棒性
关于三个层面的个概念:
1.模型具有较高的精度或有效性. 2.对于模型假设出现的较小偏差,(即噪音能对算法性能产生较小的影响). 3.对于模型假设出现的较大的偏差, 不可对算法性能产生"灾难性"的影响. (比如离群点)
聚类算法的鲁棒性:
1. 以为这聚类结果不应受到模型中存在的数据扰动, 噪声及离群点的太大影响.
对付离群点的方法:
被广泛使用的数据模型:
u--干净簇中心向量, e---噪声向量
上述模型改造为:
o--outlier. 采用该数据模型, 再在目标函数中引入关于o的惩罚项(如L1, L2范数), 可以提高算法的鲁棒性
三.K近邻中K值是如何得到的?
K值小: 这整体模型很复杂, 很容易过拟合.
K值大: 较少学习的估计误差, 整体模型变得简单
K=N: 无论输入实例是什么, 都将简单的预测它属于训练实例中最多达到类. 这时, 模型过于简单, 完全忽略训练中的大量有用信息, 是不可取的.
在应用中, K值一般取一个比较小的数值, 通常采用交叉验证法来选择最优K值,
四.模型标准化后
五.随机种子