机器学习的方法

最新推荐文章于 2024-09-26 22:28:19 发布

落晓549

最新推荐文章于 2024-09-26 22:28:19 发布

阅读量300

点赞数 4

文章标签：机器学习人工智能 python

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/2403_87149462/article/details/142318176

版权

一、模型评估与误差
模型输出偏离真实目标值说明模型存在误差，用损失函数来度量偏离的程度，训练集上的平均误差称为训练误差，测试集上的误差称为泛化误差，泛化误差是衡量模型泛化能力的重要标准。

1、数据集：
数据集包括训练集、验证集和测试集。训练集相当于上课学知识，验证集相当于课后练习题，用来纠正和强化学到的知识，测试集相当于期末考试，用来最终评估学习效果。

对于小规模样本集，常用划分比例为训练集：验证集：测试集 = 6:2:2或训练集：测试集 = 8:2、7:3；对于大规模样本集，验证集和测试集数量足够即可。

2.验证集：
用于评估模型在新数据上的表现，调整超参数使模型处于最好状态。

主要作用包括评估模型效果和调整超参数，但其评估结果并非模型最终效果，模型最终效果以测试集评估结果为准。

3、测试集：
通过测试集进行最终评估，得到准确率、精确率、召回率、F1等评估指标。

二。过拟合与欠拟合：
1. 过拟合是将训练样本自身特点当作所有样本潜在泛化特点，表现为在训练集上表现好，在测试集上表现不好，原因包括训练数据少、模型复杂度高、数据不纯等。

2、欠拟合是还没训练好，原因包括数据未归一化处理、神经网络拟合能力不足、数据特征项不够等。

解决欠拟合的方法包括寻找最优权重初始化方案、增加网络层数和epoch、使用适当的激活函数、优化器和学习率、减少正则化参数、增加特征等。
三、监督学习与非监督学习：
数据集中样本点只包含模型输入时采用非监督学习算法，样本点以形式出现（有数据标签）时采用监督学习算法。

监督学习根据训练集观测样本点优化模型，使给定测试样例的输出尽可能接近正确输出。

监督学习分类：
回归：输出是连续值，常见例子如购物网站计算预期收益、预测房价和销售额等，通常使用均方损失函数，如均方误差损失函数（MSE），最简单的求解例子是最小二乘法，包括简单线性回归和多元线性回归。

分类：输出是离散值，如预测目标是猫，猫为正样本，其他为负样本，有TP（将正样本预测为正样本）、FN（将正样本预测为负样本）、FP（将负样本预测为正样本）、TN（将负样本预测为负样本）等概念，分类评估指标有准确率（Accuracy）、精确率（Precision）、召回率（Recall）等。

关注

4
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。