机器学习（一）：机器学习入门常识

最新推荐文章于 2024-01-04 11:31:13 发布

DBL_fish

最新推荐文章于 2024-01-04 11:31:13 发布

阅读量440

点赞数

分类专栏：机器学习机器学习总结文章标签： Machine-Learning

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_41853536/article/details/88381206

版权

机器学习同时被 2 个专栏收录

6 篇文章 0 订阅

订阅专栏

机器学习总结

4 篇文章 1 订阅

订阅专栏

机器学习常常划分为三个方面：

监督学习：（有标签的学习）包括分类，回归问题
无监督学习：（无标签的学习）聚类问题
强化学习：(有延迟的反馈)根据当前的处境选取最优解，比如下象棋，下完这步棋，在这步棋的基础上，争取下的最好，整部棋下的好坏，跟前几步都有关系。

分类问题：因为有了标签值，根据算法，将样本归于哪一类。（逻辑回归，决策树，随机森林，svm）

回归问题：是一个连续值，根据样本上的一些特征，预测连续值结果。

聚类问题：因为没有标签以及明显的划分标准，根据样本的相似性或者关联关系，把类似的归于一类

常用的一些术语：

对于结构化数据，每行叫做样本，每列叫做特征或者属性，所谓的百万数据量，也就是有百万的行

整个机器学习完整的流程包括：

数据 + 算法 -->应用于工业问题

数据：里面有特征工程，包括数据的清洗与选择。

数据还包括：训练集(训练模型)，验证集（调整超参数），测试集（评估模型效果）。

验证集的选取：留出法（hold_out:因为工业界数据量够大，常用于工业界），交叉验证法(cross validation：由于比赛数据集较小，常用于比赛)，自助法(bootstrap：用的比较少)

算法：（1）假设函数：常见的一些机器学习模型。（LR,SVM,决策树等）

（2）损失函数：对模型的好坏进行评估。（交插熵，MSE,hingloss等）

（3）优化：对数据进行调整，达到最优的效果。（梯度下降，牛顿法等）

对于机器学习当中常见的训练集，验证集，测试集当中，其中验证集和测试集经常被人混用。

在有监督的学习中，验证集常被分成2-3个，即：训练集（train set),验证集（validation set），测试集（test set）

训练集：估计模型，学习样本数据集，通过匹配一些参数来建立一个分类器，建立一种分类的方式，主要是用来训练模型的。
验证集：确定网络结构或者控制模型复杂程度的参数。对于训练出来的模型，调整分类器的参数。
测试集：检验最终选择的最优模型的性能如何。主要是测试训练好的模型的分辨能力。

划分验证集和测试集的原因：防止过拟合

如果全部的数据用于训练，那么训练出来的模型在测试集上表现良好，但是泛化能力不好。换一个新的数据集，模型的效果可能就比较差。

参考：北岛知寒 - 开源爱好者 https://www.cnblogs.com/crazyacking/p/6737955.html

一般情况下，我们在未知的样本下进行测试，来评估模型的性能如何。

但是在手上没有未知的样本的情况下，怎样进行可靠的评估？

常见的评估方法：

留出法（hold-out）：在全体数据当中，划分训练集和测试集。（一般工业界用这种方法，因为数据量较多，所以可以划分出来一部分数据作为测试集）注意：（1）数据保持分布一致,可以分层采样（2）多次重复划分，随机100次划分（3）测试集不能太大太小，一般为1/5 - 1/3
交叉验证法(cross validation)：常用的是10折交叉验证，把总体数据分为10分，每次从中取出来一份作为测试集，总共取10次，把10次的测试结果进行平均，作为最终的测试结果。如果把10折改为n折你那就相当于留一法
自助法(bootstrap)：有放回的进行重复采样，但是这样会导致数据分布有所改变。

参考：7月在线

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。