机器学习入门-1：引入

最新推荐文章于 2024-08-02 19:09:44 发布

hfliu25

最新推荐文章于 2024-08-02 19:09:44 发布

阅读量330

点赞数

分类专栏：机器学习文章标签：机器学习

机器学习专栏收录该内容

9 篇文章 0 订阅

订阅专栏

“等人问题”说明什么是机器学习

来源：https://www.cnblogs.com/subconscious/p/4107357.html
联姻：机器学习大牛 vs 互联网大鳄
Machine Learning，直译过来就是“机器学习”，但机器是死的，怎么学习呢？

传统上，我们让计算机工作，就是给计算机一串指令；然后，计算机接收并按照指令一步步执行下去，有因有果，非常明确。
但是，这在机器学习行不通。机器学习接收的不是指令，而是数据！

“等人问题”
约人见面时，有可能碰到迟到的人。小Y，不守时，经常迟到。有次，和他约好3点在某麦当劳见面。在我出门时突然想到一个问题：我现在出发合适吗？会不会到了地点后，又花30分钟去等他？我需要一个策略解决这个问题。
方法一：知识。搜索能够解决这个问题的知识，但没有人会把如何等人这个问题作为知识传授，因此无果。
方法二：请教他人。同上，无果。
方法三：自己。是否设立过什么准则去处理这个问题？例如：无论别人如何，我都会准时到达。但我不是个死板的人，没有设立过这样的准则。

事实上，有种方法比上面三个都合适。回想与小Y相约的经历，看他迟到的次数，通过这个来预测他此次迟到的可能性。
假设我和小Y约过5次，他迟到1次，则准时概率80%，我心里阈值70%。因此，我认为这次小Y应该不会迟到，我按时出门。
但若小Y迟到4次，则准时概率20%，严重低于我的阈值70%。因此，我推迟出门时间。
这个方法，从他的利用层面来看，又称为经验法。我事实上利用了以往所有相约的数据，因此也可称之为依据数据做的判断。

依据数据所做的判断，跟机器学习的思想在根本上是一致的。

刚才的思考过程，只考虑“频次”这个属性。在真实的机器学习中，这可能都不算作一个应用。
一般的机器学习至少考虑两个量：(1)自变量，此处是用来预测小Y是否迟到的量；(2)因变量，是希望预测的结果，此处是小Y迟到与否的判断；
假设我们把时间作为自变量，发现小Y迟到的所有日子基本都是周五，而在非周五的情况下，他基本不迟到。于是我们可以建立一个模型，来模拟小Y迟到跟是否是周五的概率，见下图：
决策树模型
这样的图就是一个最简单的机器学习模型，称之为决策树。

当我们考虑的自变量只有一个时，情况较为简单。
如果再增加一个自变量，是否驾车。则建立一个更复杂的模型，这个模型包含两个自变量与一个因变量。
若再复杂一点，天气是否下雨。那此时有三个自变量，模型更复杂。

如果我希望能够预测小Y迟到的具体时间，那我可以把每次迟到的时间与日期、驾车、雨量等三个自变量，统一建立一个模型。于是我的模型可以预测值，例如他大概几分钟会迟到，这样可帮我更好地规划出门时间点。
但是这种情况下，决策树就无法支撑了，因为决策树只能预测离散值。我们可以用线型回归方法建立这个模型。

如果我们把建立模型的过程交给电脑。比如输入所有的自变量和因变量，然后让计算机帮我生成一个模型，同时让计算机根据我当前的情况，给出我实际的出门时间。那么计算机执行这些辅助决策的过程，就是机器学习的过程。

机器学习方法是计算机利用已有的数据（经验），得出了某种模型（迟到的规律），并通过模型来预测未来（是否迟到）的一种方法。

通过上面的分析，可以看出机器学习与人类思考的经验过程是类似的，不过它能考虑更多的情况，执行更加复杂的计算，并能更快得到结论。
事实上，机器学习的一个主要目的就是把人类思考、归纳经验的过程转化为计算机通过对数据的处理、计算得到模型的过程。经过计算得出的模型，能够以近似于人的方式，解决很多灵活复杂的问题。