单变量线性回归(Linear Regression with One Variable)

这篇博客介绍了单变量线性回归的概念,包括模型表示、代价函数和梯度下降法。通过例子展示了如何用线性回归预测房价,定义了代价函数以衡量预测误差,并探讨了梯度下降算法如何找到最小化误差的参数。最后,讨论了批量梯度下降在线性回归中的应用。
摘要由CSDN通过智能技术生成

二、单变量线性回归(Linear Regression with One Variable)

2.1 模型表示

让我们通过一个例子来开始:这个例子是预测住房价格的
我 们 要 使 用 一 个 数 据 集 , 数 据 集 包 含 俄 勒 冈 州 波 特 兰 市 的 住 房 价 格 。 在 这 里 , 我 要 根 据 不 同 房 屋 尺 寸 所 售 出 的 价 格 , 画 出 我 的 数 据 集 。 比 方 说 , 如 果 你 朋 友 的 房 子 是 1250 平 方 尺 大 小 , 你 要 告 诉 他 们 这 房 子 能 卖 多 少 钱 。 那 么 , 你 可 以 做 的 一 件 事 就 是 构 建 一 个 模 型 , 也 许 是 条 直 线 , 从 这 个 数 据 模 型 上 来 看 , 也 许 你 可 以 告 诉 你 的 朋 友 , 他 能 以 大 约 220000 ( 美 元 ) 左 右 的 价 格 卖 掉 这 个 房 子 。 我们要使用一个数据集,数据集包含俄勒冈州波特兰市的住房价格。在这里,我要根据不同房屋尺寸所售出的价格,画出我的数据集。比方说,如果你朋友的房子是1250平方尺大小,你要告诉他们这房子能卖多少钱。那么,你可以做的一件事就是构建一个模型,也许是条直线,从这个数据模型上来看,也许你可以告诉你的朋友,他能以大约220000(美元)左右的价格卖掉这个房子。 使1250线220000()
这就是监督学习算法的一个例子。

在这里插入图片描述

它被称作监督学习是因为对于每个数据来说,我们给出了“正确的答案”,即告诉我们:根据我们的数据来说,房子实际的价格是多少,而且,更具体来说,这是一个回归问题。回归一词指的是,我们根据之前的数据预测出一个准确的输出值,对于这个例子就是价格,同时,还有另一种最常见的监督学习方式,叫做分类问题,当我们想要预测离散的输出值,例如,我们正在寻找癌症肿瘤,并想要确定肿瘤是良性的还是恶性的,这就是0/1离散输出的问题。更进一步来说,在监督学习中我们有一个数据集,这个数据集被称训练集。

用小写的 m m m来表示训练样本的数目。**

以之前的房屋交易问题为例,假使我们回归问题的训练集(Training Set)如下表所示:

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-WX017dps-1603942441141)(C:/Users/苏夫人/Desktop/Coursera-ML-AndrewNg-Notes-master/Coursera-ML-AndrewNg-Notes-master/images/44c68412e65e62686a96ad16f278571f.png)]

我们将要用来描述这个回归问题的标记如下:

m m m 代表训练集中实例的数量

x x x 代表特征/输入变量

y y y 代表目标变量/输出变量

( x , y ) \left( x,y \right) (x,y) 代表训练集中的实例

( x ( i ) , y ( i ) ) ({ {x}^{(i)}},{ {y}^{(i)}}) (x(i),y(i)) 代表第 i i i 个观察实例

h h h 代表学习算法的解决方案或函数也称为假设(hypothesis

在这里插入图片描述

这就是一个监督学习算法的工作方式,我们可以看到这里有我们的训练集里房屋价格
我们把它喂给我们的学习算法,学习算法的工作了,然后输出一个函数,通常表示为小写 h h h 表示。 h h h 代表hypothesis(假设), h h h表示一个函数,输入是房屋尺寸大小,就像你朋友想出售的房屋,因此 h h h 根据输入的 x x x值来得出 y y y 值, y y y 值对应房子的价格 因此, h h h 是一个从 x x x y y y 的函数映射。

我将选择最初的使用规则 h h h代表hypothesis,因而,要解决房价预测问题,我们实际上是要将训练集“喂”给我们的学习算法,进而学习得到一个假设 h h h,然后将我们要预测的房屋的尺寸作为输入变量输入给 h h h,预测出该房屋的交易价格作为输出变量输出为结果。那么,对于我们的房价预测问题,我们该如何表达 h h h

一种可能的表达方式为: h θ ( x ) = θ 0 + θ 1 x h_\theta \left( x \right)=\theta_{0} + \theta_{1}x hθ(x)=θ0+θ1x,因为只含有一个特征/输入变量,因此这样的问题叫作单变量线性回归问题。

2.2 代价函数

定义代价函数的概念,这有助于我们弄清楚如何把最有可能的直线与我们的数据相拟合。如图:
在这里插入图片描述
在线性回归中我们有一个像这样的训练集, m m m代表了训练样本的数量,比如 m = 47 m = 47 m=47。而我们的假设函数,也就是用来进行预测的函数,是这样的线性函数形式: h θ ( x ) = θ 0 + θ 1 x h_\theta \left( x \right)=\theta_{0}+\theta_{1}x hθ(x)=θ0+θ1x

接下来我们会引入一些术语我们现在要做的便是为我们的模型选择合适的参数parameters θ 0 \theta_{0} θ0 θ 1 \theta_{1} θ1,在房价问题这个例子中便是直线的斜率和在 y y y 轴上的截距。

我们选择的参数决定了我们得到的直线相对于我们的训练集的准确程度,模型所预测的值与训练集中实际值之间的差距(下图中蓝线所指)就是建模误差modeling error)。

在这里插入图片描述

我们的目标便是选择出可以使得建模误差的平方和能够最小的模型参数。 即使得代价函数 J ( θ 0 , θ 1 )

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值