2021 开年巨献 —— 系列文章《AI 入行那些事儿》,为您讲述:
人工智能的基础原理、发展历程、当前应用
成为 AI 技术人员所需的入门技能和学习途径
以及求职、面试的全过程
机器学习的 Hello World:线性回归模型
我们来看一个最简单的机器学习模型:线性回归。这个模型基于一种假设:我们的样本数据的特征和标签之间存在着线性关系,也就是说以样本特征为自变量的线性函数值就是样本标签。
我们要看的这个例子展示了线性回归最简单的形式:一元线性回归。下图的表格记录了一个公司多名员工的个人信息和薪资状况。
通过数据可视化,我们不难看出员工的工作年限(experience)和薪水(salary)之间存在着近似线性的关系。
也就是说,如果我们将工作年限设为 x,将工资额度设为 y,则 x 和 y 的关系可以用线性函数 y = a + bx 来表示。此处 a 和 b 是函数 f(x) = a + bx 的参数,x 是 f(x)的自变量,而 y 是 f(x) 的因变量。
目标函数
那么,a 和 b 分别取怎么样的值,才能使得对应的 f(x) 最合适表达当前这张表格上的员工经验与收入的关系呢?这就要请损失函数出场了。
假设我们现在已经求出了 a 和 b 的值,那么我们将样本点的自变量 x 带入函数 f(x) = a + bx,必然会得到一个因变量的取值,我们设这个取值是 y', y' = a + bx, 而样本原本的取值是 y。
无论 a 和 b 取什么值,都有可能存在 y' 不等于 y 的情况,也就是说无