提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档
前言
在之前的文章介绍了机器学习的小部分概念,这篇文章正式接触相关的机器学习算法,在机器学习中,分为有监督的学习和无监督的学习,本次文章介绍有监督的学习算法。
有监督的学习分为回归和聚类两类:
提示:本文只是粗略的介绍,相当于一个提纲。
一、回归
什么是回归呢?
回归从字面意思理解就是让这些点都回到一个符合规律的位置上,在机器学习中,指让自变量通过通过拟合找到和因变量的关系建立起数学模型。
回归算法大致分为四类,线性回归,决策树回归,k近邻回归,支持向量机回归。
1.线性回归
线性回归是一种常见的回归,基本上我们都遇到过回归,比如一杯奶茶6块钱,问x杯奶茶多少钱,很容易得出需要y=6x块。
这便是一种特殊的回归,特殊到所有的点都在y=6x上,非常符合规律,事实上在现实生活中大部分都不是这么完美的,大多大少都会有偏差。
那么有偏差的这种情况就不能通过求一次函数的方法来得到函数方程式,我们只能尽可能的找到一个函数方程尽可能满足预期。那么找到这个函数方程的方法是啥呢?
通过最小二乘法可以求出这个函数方程。最小二乘法这不做介绍。
在机器学习中还有一个概念叫损失函数,用它来衡量你的模型的好坏,损失函数越小越好。
你可以通过计算残差,计算均方差来代表损失函数,这里不介绍这两个概念。不过它们两个代表了真实值和预测值的距离,对于我们来说这个距离越小代表我们的这个模型越准确。
2.决策树
决策树简单的理解就是对一团数据通过某个判断条件一分为二,这二又分为四,可以一直分下去,直到你想要的结果,这样通过这些判断条件就能实现回归,那么这些判断条件就直接决定了这个决策树的好坏,通过方差降低就能判断,这里就不列公式了,可以直观的想象一下:
决策树把一团数据分为n团,只有当这n团数据每团里面的数据相互的距离尽可能的低说明这团数据更紧凑,聚集得更拢,这个判断条件更清晰,纯度更高,那么这个决策树也就更好。
3.k近邻
k近邻是一种懒惰学习算法,输入数据,计算机把这写数据放在坐标系中,当需要计算时,计算机选取离新输入的点最近的k个点,计算这k个点和输入的这个点的算数平方距离,得到的结果就是预测值。
4.支持向量机
支持向量机简单的理解就是高级版的线性回归,线性回归是一次函数,这个就没有限制,可以一次二次等等,这样做的目的就是使这条线更圆润,让预测结果更准确,当然支持向量机还做了软间隔和误差阈值的努力这里不做介绍。
总结
以上就是今天要讲的内容,使对回归问题的机器学习做了一个提纲,可以通过此对回归有一个大致的认识。