初识机器学习

最新推荐文章于 2024-08-02 19:09:44 发布

深度学习不如深度入眠

最新推荐文章于 2024-08-02 19:09:44 发布

阅读量310

点赞数 1

分类专栏：入门学习文章标签：机器学习 python 神经网络人工智能

本文链接：https://blog.csdn.net/Emooooor/article/details/120684831

版权

入门学习专栏收录该内容

7 篇文章

订阅专栏

一、机器学习定义
Tom Mitchell 在1997年给出了一个比较官方的定义：‘A computer program is said to learn from experience E with respect to some task T and some performance measure P, if its performance on T, as measured by P, improves with experience E. ’
用周志华老师西瓜书上的翻译就是：“假设用P来评估计算机程序在某任务类T上的性能，若一个程序通过利用经验E在T中任务丰获得了性能改善，则我们就说关于T和P，该程序对E进行了学习”。
通俗来讲，如果我们要利用机器去预测(评估)一个任务的结果，但是在预测(评估)过程中利用数据(经验)来使得我们任务结果得到了更准确的值，那么利用数据(经验)来改善任务结果的过程就成为机器学习。

二、机器学习的一些术语解释

这里只例举一些常用的以及我学习的时候有点懵的术语
数据集：分为训练集、测试集和验证集。
	训练集：训练模型时用到的数据集。(模型要干啥，你要提前跟它说)
	验证集：优化和改善模型时用到的数据集。(它知道自己干啥了，怎么干得更好)
	测试集：最终检验这个模型好不好。(交差的时候，别人考验你你干的如何)
数据预处理：收集的数据格式(大小、缺失值等)不统一，需要进行预先处理。
特征：以西瓜书上的例子为例，可以是西瓜的色泽，敲声，根蒂等可以作为特征。
梯度：也可以说斜度，通俗理解就是函数的导数，求损失函数时可以朝着导数方向求最大最小值。
损失函数：也就是机器预测出来的值与真实的值之间的差距。
过拟合：特征太多，认狗只认黄色的狗狗，小黑不配做狗。
欠拟合：特征太少，认狗只认俩耳朵俩眼睛，突然觉得和楼主有点像。

三、机器学习算法分类
我们以是否在训练时需要人为监督将算法分为四类：
1.监督学习
2.无监督学习
3.半监督学习
4.强化学习

监督学习 在这里插入图片描述以猫狗数据集为例，所标注的即为该数据对应的标签。在监督学习任务中的训练集数据都是有标签的，所解决的任务类型可以为分类或者回归。主要的监督学习算法有：
• k-Nearest Neighbors（K近邻算法）