线性回归和逻辑回归是当今很受欢迎的两种机器学习模型。
本文将教你如何使用 scikit-learn 库在Python中创建、训练和测试你的第一个线性、逻辑回归机器学习模型,本文适合大部分的新人小白。
线性回归机器学习模型
1.要使用的数据集
由于线性回归是我们在本文中学习的第一个机器学习模型,因此在本文中,我们将使用人工创建的数据集。这能让你可以更加专注于学习理解机器学习的概念,并避免在清理或处理数据上花费不必要的时间。
更具体地说,我们将使用住房数据的数据集并尝试预测住房价格。在构建模型之前,我们首先需要导入所需的库。
2.需要用到的Python库
我们需要导入的第一个库是 pandas,它是一个“panel data”的组合体,是处理表格数据比较流行的Python库。
一般我们会用pd来命名该库,你可以使用以下语句导入Pandas:
import pandasaspd
接下来,我们需要导入NumPy,这是一个很常用的数值计算库。Numpy以其Numpy数组数据结构以及非常有用的reshee、arange和append而闻名。
一般我们也会用np作为Numpy的别名,你可以使用以下语句进行导入:
import numpyasnp
接下来,我们需要导入matplotlib,这是Python很受欢迎的数据可视化库。
matplotlib通常以别名导入plt。你可以使用以下语句导入:
import matplotlib.pyplotasplt
%matplotlib inline
该%matplotlib inline语句可以将我们的matplotlib可视化直接嵌入到我们的Jupyter Notebook中,更易于访问和解释。
最后,你还要导入seaborn,这是另一个Python数据可视化库,你可以更轻松地使用matplotlib创建漂亮的可视化数据。
你可以使用以下语句导入:
import seabornassns
总结一下,这是本文必需的库的导入:
import pandasaspd
import numpy asnp
import matplotlib.pyplot asplt
%matplotlib inline
import seaborn assns
导入数据集
如前所述,我们将使用住房信息数据集。在下面的URL链接中,有我们的.csv文件数据集:
https://nickmccullum.com/files/Housing_Data.csv
要将数据集导入到Jupyter Notebook中,首先要做的是通过将该URL复制并粘贴到浏览器中来下载文件。然后,将文件移到Jupyter Notebook的目录下。
完成此操作后,以下Python语句可以将住房数据集导入到Jupyter Notebook中:
raw_data = pd.read_csv('Hou