超参数
算法中很多参数,显然与不显然,无关与有关,调整参数不同值,影响算法性能
隐藏参数的发现与可能性选择比较难
如KNN算法的距离 距离算不算权重是一个参数,如何算距离也是参数
操作
对可调参数取不同值,求出正确率最高的参数组成
数据归一化
数据本身分布不均匀,不同列向量内距离可能过大or过小,如KNN算法影响距离判定
所以将所有数据映射同一尺度内
考虑一般情况,在线性回归内如何?
操作
最值归一
适用于明显边界情况。受个极端最值影响较大
均值方差归一
对最值受极端数据影响的改良
均值归一化代码
可见,训练得到的参数即为训练数据的均值和方差,之后对测试数据根据训练数据的均值方差进行归一化
向量化运算
目的:提升性能
数学理论:
为求最小的偏离值,对其求导,变量为a、b;
,
,求出a的推导式
,为方便向量运算,转化形式为:
,可以将其看作向量点乘的形式:
代码:
算法性能判断
准确性:测试数据预测标签和测试数据标签对比获得
网格搜索
注意
对训练数据集得到的归一化指标,应直接应用于对测试数据的归一化
不应对测试数据单独归一化,模拟实际情况的数据很少难以归一化