机器学习的方法


 
一、模型评估与误差
         模型输出   偏离真实目标值 说明模型存在误差,用损失函数  来度量 偏离 的程度,训练集上的平均误差称为训练误差,测试集上的误差称为泛化误差,泛化误差是衡量模型泛化能力的重要标准。

 1、数据集:
          数据集包括训练集、验证集和测试集。训练集相当于上课学知识,验证集相当于课后练习题,用来纠正和强化学到的知识,测试集相当于期末考试,用来最终评估学习效果。

        对于小规模样本集,常用划分比例为训练集:验证集:测试集 = 6:2:2或训练集:测试集 = 8:2、7:3;对于大规模样本集,验证集和测试集数量足够即可。

2.验证集:
         用于评估模型在新数据上的表现,调整超参数使模型处于最好状态。

        主要作用包括评估模型效果和调整超参数,但其评估结果并非模型最终效果,模型最终效果以测试集评估结果为准。

 3、测试集:
        通过测试集进行最终评估,得到准确率、精确率、召回率、F1等评估指标。

二。 过拟合与欠拟合:
        1. 过拟合是将训练样本自身特点当作所有样本潜在泛化特点,表现为在训练集上表现好,在测试集上表现不好,原因包括训练数据少、模型复杂度高、数据不纯等。

       2、 欠拟合是还没训练好,原因包括数据未归一化处理、神经网络拟合能力不足、数据特征项不够等。

        解决欠拟合的方法包括寻找最优权重初始化方案、增加网络层数和epoch、使用适当的激活函数、优化器和学习率、减少正则化参数、增加特征等。
三、监督学习与非监督学习:
        数据集中样本点只包含模型输入 时采用非监督学习算法,样本点以    形式出现(有数据标签)时采用监督学习算法。

         监督学习根据训练集观测样本点优化模型 ,使给定测试样例 的输出 尽可能接近正确输出 。

 监督学习分类:
         回归:输出是连续值,常见例子如购物网站计算预期收益、预测房价和销售额等,通常使用均方损失函数,如均方误差损失函数(MSE),最简单的求解例子是最小二乘法,包括简单线性回归和多元线性回归。

        分类:输出是离散值,如预测目标是猫,猫为正样本,其他为负样本,有TP(将正样本预测为正样本)、FN(将正样本预测为负样本)、FP(将负样本预测为正样本)、TN(将负样本预测为负样本)等概念,分类评估指标有准确率(Accuracy)、精确率(Precision)、召回率(Recall)等。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值