机器学习这么火热，可到底什么是机器学习？

最新推荐文章于 2020-12-10 17:32:36 发布

码农的荒岛求生

最新推荐文章于 2020-12-10 17:32:36 发布

阅读量199

点赞数

文章标签：算法 python 机器学习人工智能深度学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/github_37382319/article/details/111833695

版权

什么是机器学习

人工智能领域先锋Arthur Samuel曾给出过一个很好的关于机器学习的定义，是这样说的：

这一领域的研究主要是在不明确的编写程序的情况下赋予计算机学习的能力。

另一个定义也同样简洁但直指其本质，Drew Conway这样说过机器学习：

it's just statistics made by computers.

个人更喜欢后一种说法。

一般来说，机器学习基于给定的数据进行预测，在没有机器学习之前程序员可能要自己设计特定算法并编写程序实现出来，假设给定的是一堆数据集A，那么这种“硬编码”的程序只能在数据集A上进行预测，换一个数据集B那么这个程序就毫无用处了。

机器学习的方法与上述“硬编码”的实现方式完全不同，我们不过通过算法告诉计算机该如何如何，相反，我们让程序自己基于给定的数据集“推测”出最佳答案。因此这种方法也被称为“数据驱动的预测”，听上去很神奇有没有，举几个例子你就明白了。

如果从机器学习算法的“输出”来考虑的话，通常有两类机器学习算法，一类是Regression，回归；另一类是classification，即分类。

我们首先来看回归。

Regression：回归

假设你想收集一堆数据做关于房子价格的预测，那么收集了一堆你所在城市的房子价格信息后，最终你得到了一张这样的图：

图中每一个点都代表你的一项调查数据，比如你发现80平的房子价值60w(不到一万一平是不是很良心)，90平的房子价值70w，那么机器学习可以帮你回答这样的问题：假设给定的房子是85平，那么价格会是多少？

在这种情况下你的程序给出的是一个连续值，什么是连续值？就是说其输出的可能是一个从0到10000w中的某一个值，这就是回归问题。

英文单词“regress”，有退回、复原的意思，意思是说你把你的数据“regress”到一条直线上，有了这条直线你就有了一个数据公式F(x)了，有了这个函数F(x)，那么给定任意的x你都得到一个值y，这就是线性回归。

接下来我们看分类。

Classification：分类

现在正值盛夏，正是吃西瓜的好时候，假设你想根据西瓜的大小来判断西瓜是甜的还是不甜的，像上一个问题一样，你应该先收集数据。

假设数据收集完毕后你得到了这样的一张图：

同样，每一个点都是一项调查数据，在这里红色的点表示甜，蓝色的点表示不甜。有了这些数据那么给定一个8斤重的西瓜你的机器学习算法就知道是不是甜的了。

在这里我们可以看到，该机器学习算法的输出是离散值：甜或者不甜，这就是分类。

注意图中的垂直线，这条线在机器学习领域被称为“超平面”，这当然这是机器学习算法计算出来的，基本上这个算法认为10斤以下的西瓜是不甜的，10斤以上的是甜的。

如果从机器学习的“输出”角度看，那么会有两种算法：回归和分类。

那么从机器学习的“输入”角度看呢？

如果从你“喂”给机器学习算法数据的角度看，又可以分为两类：一类是监督式学习；另一类是非监督式学习。

Supervised learning：监督学习

监督学习是说你“喂”给算法的数据提前带有正确答案。

我们还是以第一个房子价格预测为例，在这里我们其实告诉了程序房子的正确价格，机器学习算法需要基于这些带有正确答案的数据给出更多正确答案。

第二个西瓜甜不甜的例子也是监督学习，因为我们已经提前告诉程序在各种重量的下西瓜是不是甜的。机器学习算法同样是基于这些带有正确答案的数据给出更多正确答案。

值得注意的是，这里的正确答案在机器学习领域被称为label，即标签，一般来说要想获取标签需要人工标注，也就是人基于数据首先给出正确答案，但人毕竟不是机器总有疲劳的时候，这时把这些标注好的数据“喂”给算法，计算机就能代替人进行工作了。

Unsupervised learning：非监督学习

在非监督式学习的情况下我们其实更多的是把算法看做带有魔法的黑盒子，与监督学习需要人工标注不同，非监督学习下我们让算法自己推导出正确答案。

这类算法引入了clustering这样一种概念，也就是聚类，这种算法的任务是把相似的对象分成一类，这一类中的对象彼此更为相似。

如果事先你不知道该怎样对数据进行标注的话那么非监督学习很值得考虑了。

假设你想对图像进行分类，但是你自己都不知道该怎样对这些图像进行分类，那么这时你就可以利用非监督学习算法让程序自己找到最佳的分类方法，很有趣吧。

总结

本篇不是机器学习的深度讲解文章，仅仅是一个简介，但应该让你明白了什么是机器学习，为什么我们需要机器学习，机器学习算法大体上是怎样工作的，希望这篇能有所帮助。

码农的荒岛求生

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
机器学习这么火热，可到底什么是机器学习？

什么是机器学习人工智能领域先锋Arthur Samuel曾给出过一个很好的关于机器学习的定义，是这样说的：这一领域的研究主要是在不明确的编写程序的情况下赋予计算机学习的能力。另一个定义也...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。