今天是机器学习的第一小节学习(吴恩达)。
问题提出:
现在我们有一些真实的数据集
(
x
,
y
)
(x,y)
(x,y),
x
x
x表示房屋的大小,
y
y
y表示房屋出售的价格。
然后我们有一个房子要出售,已知房屋大小是
x
x
x
n
n
n,希望能够知道能卖多少钱
y
y
y
n
n
n。
我们会建立数据集中的x和y之间的一元线性关系(假设函数) :
y
=
a
x
+
b
\boldsymbol{y=ax+b}
y=ax+b 。希望找到
a
和
b
a和b
a和b,使假设函数和数据集上的点更好的拟合。
也就是说:
y
(
预
测
)
−
y
(
真
实
)
y(预测)- y(真实)
y(预测)−y(真实) 要尽可能的小,这样才能更好的拟合。
其中:
y
=
a
∗
x
+
b
y=a*x+b
y=a∗x+b : 被称为假设函数。
y
y
y(预测) 表示:在数据集中找到一个
x
x
x后,利用
y
=
a
x
+
b
\boldsymbol{y=ax+b}
y=ax+b得到的值。
y
y
y(真实) 表示:在数据集中 和
x
x
x相对应的
y
y
y值。
所以,我们要研究的问题其实是一个最小化问题。
为了能使 y(预测)-y(真实)尽可能小 , 有
代价函数 =
1
2
∗
m
\frac{1}{2*m}
2∗m1
∑
i
=
0
m
\sum_{i=0}^m
∑i=0m{[
y
\boldsymbol{y}
y
i
\boldsymbol{i}
i(预测) -
y
\boldsymbol{y}
y
i
\boldsymbol{i}
i(真实)]
2
\boldsymbol{2}
2}
就是令代价函数最小。
- m表示 数据集中数据(x,y)的数量。
- y y yi(预测) = a ∗ x + b a*x+b a∗x+b
现在,我们的问题就变成了 寻找
a
和
b
a和b
a和b,使代价函数的值最小。(这个代价函数也叫误差平方函数或者误差平方代价函数 )。
误差平方代价函数是我们常使用的一种代价函数。
当我们找到了是代价函数最小的
a
和
b
\boldsymbol{a和b}
a和b 之后,就找到了
假设函数
y
=
a
∗
x
+
b
\boldsymbol{y=a*x+b}
y=a∗x+b,就可以利用假设函数来预测房价了。