1.绪论
1.1 机器学习的定义:
-
Arthur Samuel: " Field of study that gives computers the ability to learn without being explicitly programmed."
-
Tom Mitchell: " A computer program is said to learn from experience E with respect to some task T and some performance measure P, if its performance on T, as measured by P. improves with experiience E."
(译:计算机程序从经验E中学习,解决某一任务T,进行某一性能度量P,通过P测定在T上的表现因经验E而提高。)
1.2 监督学习:
利用一组带标签的数据, 学习从输入到输出的映射, 然后将这种映射关系应用到未知数据, 达到分类或者回归的目的。
Regression Problem(回归问题):设法预测取值连续的数值输出(房价预测)
Classification Problem (分类问题) :设法预测取值离散的数值输出 (肿瘤良性/恶性预测)
1.3 无监督学习:
利用无标签的数据学习数据的分布或数据与数据之间的关系被称为无监督学习。
无监督学习最常应用的场景是聚类(clustering)和降维(Dimension Reduction)
有监督学习和无监督学习的最大区别在于数据是否有标签
2.单变量线性回归
2.1模型描述
专用的术语以及假设函数h:
假设函数( Hypothesis function)表示从输入到输出的映射,通常写作 h θ ( x ) h_\theta(x) hθ(x)或简写为 h ( x ) h(x) h(x)
h θ ( x ) = θ 0 + θ 1 x h_\theta(x)=\theta_0+\theta_1x hθ(x)=θ0+θ1x
其中, θ 0 \theta_0 θ0、 θ 1 \theta_1 θ1:模型参数(parameters of the model), 选取不同的模型参数会导致不同的假设函数。
2.2代价函数(cost function)
常用:平方误差代价函数。
例如:在根据房子大小预测房子售价的问题中,令平方误差代价函数为 J ( θ 0 , θ 1 ) J(\theta_0,\theta_1) J(θ0,θ1).
则由上述得:
- Hypothesis function: h θ ( x ) = θ 0 + θ 1 x h_\theta(x)=\theta_0+\theta_1x hθ(x)=θ0+θ1x
- Parameters: θ 0 、 θ 1 \theta_0 、\theta_1 θ0、θ1
- Cost function: J ( θ 0 , θ 1 ) = 1 2 m ∑ i = 1 m ( h θ ( x ( i ) ) − y ( i ) ) 2 J(\theta_0,\theta_1)=\frac{1}{2m}\sum_{i=1}^{m}(h_\theta(x^{(i)})-y^{(i)})^2 J(θ0,θ1)=2m1i=1∑m(hθ(x(i))−y(i))2
- Goal:
min J ( θ 0 , θ 1 ) = min 1 2 m ∑ i = 1 m ( h θ ( x ( i ) ) − y ( i ) ) 2 \min J(\theta_0,\theta_1)=\min \frac{1}{2m}\sum_{i=1}^{m}(h_\theta(x^{(i)})-y^{(i)})^2 minJ(θ0,θ1)=min2m1i=1∑m(hθ