大类/特点 | 小类 | 入参、超参数及选择建议 | 样本数经验公式 |
朴素贝叶斯/假定特征独立 | 高斯模型: 有些特征可能是连续型变量 | 无超参数。特征维数较高时,基于分布熵最小原则的特征简约,可以有效的降维,缩减问题规模,减少训练时间,同时可以突出主要因素,忽略次要因素 | 随机取测试样本个数,获得的精度几乎相等。 样本数<10:1个 样本数10-100:3个 等等 |
多项式模型:常用于文本分类,特征是单词,值是单词的出现次数 | |||
伯努利模型:每个特征的取值是布尔型 | |||
KNN/适合于对于类域的交叉或重叠较多的待分样本集,对少数类分类精度不高 | Brute Force:(N样本,D特征)效率低,时间复杂度O[DN] | 需要主观决定最近邻参数K。k的值偏小,容易发生过拟合;如果选择较大的K值,与输入实例较远的训练实例也会对预测起作用,产生错误。应用中,k一般取一个比较小的数值,通常采用交叉验证法来取选择最优的K值。 暴力方法的算法效率与数据结构和K值,关系不大。基于树的方法的算法,当数据是稀疏的,且维度低的时候,算法速度快。随着K值的增加,算法时间效率降低。当K值与N相当,暴力方法比基于树的方法更有效。 | 样本的距离是根据样本所有特征计算。在这些特征中,有些特征与分类是强相关,有些特征与分类弱相关,还有一些特征不相关。这样近邻的距离会被大量不相关特征所支配。需对特征进行选择,设置权值。 |
Ball Tree:(N样本,D特征),时间复杂度O[D×logN] | |||
K-D tree:(N样本,D特征)时间复杂度当D<20,O[D×logN],D>20,O[DN] | |||
神经网络 | BP | 学习率、冲量、层数、动量一般取0.5-1,学习率一般取0-0.2, | 10%的误差所需样本数量应该是输出层参数数量10倍 |
RBF:三层网络,隐层中的转换函数是局部响应的高斯函数。比BP网络更多的隐含层神经元。广义RBF网络只要求隐藏层神经元个数大于输入层神经元个数。正则的RBF网络隐藏层神经元个数等于输入样本个数。 | 参数涉及:各基函数的数据中心及扩展常数、输出节点的权值。径向基函数的扩展常数,它反应了函数图像的宽度,σ越小,宽度越窄,函数越具有选择性。根据经验选定均匀分布的M个中心, 其间距为d,可选取高斯核函数的σ=d/sqrt(2*M)。 |
| |
CNN:解决图像问题,可用把它看作特征提取层,放在输入层上,最后用MLP 做分类。 |
|
| |
RNN:解决时间序列问题,用来提取时间序列信息,放在特征提取层(如CNN)之后。 |
|
| |
SVM |
|
|
|
决策树 |
|
|
|
逻辑回归 |
|
|
|