机器学习入门（学习心得）

guguduhi

于 2022-07-29 18:33:53 发布

阅读量498

点赞数

文章标签：机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/guguduhi/article/details/126061840

版权

本文介绍了机器学习的基础概念，包括有监督、无监督和半监督学习。通过实例阐述了在数据有限的情况下如何结合两者提高模型性能。还探讨了特征工程、模型评估和优化，如欠拟合、过拟合的解决方案，并强调了模型的可解释性和性能要求。

摘要由CSDN通过智能技术生成

在一个有监督的学习任务中，数据样本将包含一个目标属性 y，也就是所谓的真值。

无监督学习指没有明确的目标的学习，例如聚类和关联。

在数据集很大，但标记样本很少的情况下，可以找到同时具备有监督和无监督学习的应用。我们可以将这样的任务称为半监督学习

人们想要预测图像的分类，但只对图像的 10%进行了标记。通过有监督的学习，我们用有标记的数据训练一个模型，然后用该模型来预测未标记的数据，但是我们很难相信这个模型是足够普遍的，毕竟我们只用少量的数据就完成了学习。一种更好的策略是首先将图像聚类成组（无监督学习），然后对每个组分别应用有监督的学习算法。第一阶段的无监督学习可以帮助我们缩小学习的范围，第二阶段的有监督学习可以获得更好的精度。

其中元组中的每个元素要么是数值，要么是表示其属性之一的分类值。在许多情况下，这些元素也被称为 “特征”

一些机器学习模型（例如决策树）可以直接处理非数字特征，而更多时候人们必须以某种方式将这些非数字特征转换为数字特征

分类和回归可以相互转化，例如房价的划分以及猫的概率

逻辑回归（Logistic Regression）的机器学习模型，这种模型将连续概率值作为输出，但用于解决分类问题。

机器学习工作流的最终目标是建立机器学习模型。我们从数据中得到模型。因此，模型所能达到的性能上限是由数据决定的。

训练数据的模型不一定能完美匹配测试数据的原因：
1.所选取的训练数

最低0.47元/天解锁文章

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。