机器学习算法通用流程

本文探讨了算法中的超参数选择及其对性能的影响,特别是数据归一化方法(如均值方差归一和最值归一)在KNN和线性回归中的应用。强调了在训练和测试阶段处理数据的一致性,以及使用网格搜索来找到最佳参数组合的重要性。
摘要由CSDN通过智能技术生成

超参数

算法中很多参数,显然与不显然,无关与有关,调整参数不同值,影响算法性能

隐藏参数的发现与可能性选择比较难

如KNN算法的距离 距离算不算权重是一个参数,如何算距离也是参数

操作

对可调参数取不同值,求出正确率最高的参数组成

数据归一化

数据本身分布不均匀,不同列向量内距离可能过大or过小,如KNN算法影响距离判定

所以将所有数据映射同一尺度内

考虑一般情况,在线性回归内如何?

操作

最值归一

适用于明显边界情况。受个极端最值影响较大

均值方差归一

对最值受极端数据影响的改良

均值归一化代码

可见,训练得到的参数即为训练数据的均值和方差,之后对测试数据根据训练数据的均值方差进行归一化

向量化运算

目的:提升性能

数学理论:

为求最小的偏离值,对其求导,变量为a、b;,求出a的推导式,为方便向量运算,转化形式为:,可以将其看作向量点乘的形式:

代码:

算法性能判断

准确性:测试数据预测标签和测试数据标签对比获得

网格搜索

注意

对训练数据集得到的归一化指标,应直接应用于对测试数据的归一化

不应对测试数据单独归一化,模拟实际情况的数据很少难以归一化

  • 11
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值