目录
一、前期准备
在机器学习中我们使用Python居多,这里就不写Python的安装步骤了。这里主要讲跑机器学习需要用到的库。
1.Scikit-learn
这是一个机器学习库之一,是基于 Python 语言实现的机器学习算法库,它包含了常用的机器学习算法,比如回归、分类、聚类、支持向量机、随机森林等等。同时,它使用 NumPy 库进行高效的科学计算,比如线性代数、矩阵等等。
在Windows搜索栏搜索“cmd”进入命令指示栏窗口,在其中输入如下代码:
pip install scikit-learn
敲击回车就可以看到cmd在自动下载内容。
2.matplotlib
matplotlib是可视化绘图工具包,与上述一致,在cmd中输入
pip install matplotlib
并敲击回车,等待下载完成。
二、机器学习过程
“回归模型”其实就是指通过一个给定的数据集来预测值的模型,比较类似于初中时的给几对(x,y)数据求函数表达式,并依据表达式预测出剩余x所对应的y。
例如:这里有(1,3)、(2,5)两个点,要求(3,?)的问号值。这个题给初中生甚至小学生都会做,但我们还是需要捋清楚我们的解题步骤:
第一步,设定函数。在做此题时我们会先设一个函数y=kx+b。这个过程在机器学习中被称为假设函数。
第二步,解出k、b的值。在设好函数后,我们会将已知的两个数据(1,3)、(2,5)代入方程中,通过消元法解出k、b的值。在机器学习中,(1,3)、(2,5)这两个点称为数据集,将处理好的数据集喂给模型,模型就能自动解出k、b。解决线性回归问题的关键就在于求出这些值。
第三步,将(3,?)代入解出的函数中,求出?的值。
没错,实际上机器学习的回归模型就是一个不停解出系数的过程。只不过在实际应用中,我们需要的自变量不只x一个,而是有很多个,所以真正的假设函数长这个样子:
这里,我们的自变量将不只一个,而是有很多个,自变量前面的字母也不是k,而是