Second week of machine learning on Coursera

最新推荐文章于 2022-02-11 11:50:57 发布

腾原

最新推荐文章于 2022-02-11 11:50:57 发布

阅读量259

点赞数

分类专栏： coursera机器学习笔记

本文链接：https://blog.csdn.net/tengyuan93/article/details/78082408

版权

coursera机器学习笔记专栏收录该内容

7 篇文章 0 订阅

订阅专栏

Second week of machine learning on Coursera

@(Coursera)

Multivariate Linear Regression

当线性模型的特征从一个变量到多个变量时，引出了本节的多元线性回归。

Size	number of bedrooms	number of floors	age of home	price
2104	5	1	45	460
1416	3	2	40	232
1534	3	2	40	232
852	2	1	36	178

标注：
- m表示数据集的个数：m=4；
- n表示特征的个数：n=4；
- $x^{(i)}$ 表示训练集第 $i$ 个样本：

x (2) = ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ 14163240 ⎤ ⎦ ⎥ ⎥ ⎥ ⎥

$x^{(2)}=\begin{bmatrix} 1416\\ 3\\ 2\\ 40\\ \end{bmatrix}$
-

x(i)j $x_j^{(i)}$ 表示第

i $i$ 个样本中第

j $j$ 个特征的值:

x(2)3=2 $x_3^{(2)}=2$

相应的，我们的假设函数从 $h_\theta(x)=\theta_0+\theta_1x$ 变为：

h θ (x) = θ 0 + θ 1 x 1 + θ 2 x 2 + θ 3 x 3 + . . . . . . + θ n x n

$h_\theta(x)=\theta_0+\theta_1x_1+\theta_2x_2+\theta_3x_3+......+\theta_nx_n$
为了方便矩阵计算，这里假定

hθ(x)中的θ0乘了个x0，且x0=1 $h_\theta(x)中的\theta_0乘了个x_0，且x_0=1$ .
则

x0(i)=1 $x_0(i)=1$ 表示训练集中每行样本中第”0”个特征为1.
此时：

X ⃗ = ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ x 0 \to x 1 \to x 2 \to x 3 \to ⋮ x n \to ⎤ ⎦ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ \in R n + 1

$\vec{X}=\begin{bmatrix} \vec{x_0}\\ \vec{x_1}\\ \vec{x_2}\\ \vec{x_3}\\ \vdots\\ \vec{x_n}\\ \end{bmatrix} \in R^{n+1}$

X⃗ :(n+1)∗m $\vec{X}:(n+1)*m$

θ = ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ θ 0 θ 1 θ 2 θ 3 ⋮ θ n ⎤ ⎦ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ \in R n + 1

$\theta=\begin{bmatrix} \theta_0\\ \theta_1\\ \theta_2\\ \theta_3\\ \vdots\\ \theta_n\\ \end{bmatrix} \in R^{n+1}$

θ:(n+1)∗1 $\theta:(n+1)*1$
此时：

hθ(x)=θTX:(1∗(n+1))×((n+1)∗m)−>1∗m $h_\theta(x)=\theta^TX:(1*(n+1))\times((n+1)*m)->1*m$
得到的是1行，m列元素，每列元素分别对应着训练集中每行样本的y值。

Gradient Descent for Multiple Variables

Hypothesis: $h_\theta(x)=\theta^Tx=\theta_0x_0+\theta_1x_1+...+\theta_nx_n$
Parameters: $\theta_0,\theta_1,...,\theta_n$
Cost function:

J (θ 0, θ 1, . . ., θ n) = 1 2 m \sum i = 1 m (h θ (x (i)) - y (i)) 2

$J(\theta_0,\theta_1,...,\theta_n)=\frac{1}{2m}\sum_{i=1}^{m}(h_\theta(x^{(i)})-y^{(i)})^2$ (系数为什么是1/2m可以查看上一篇博客 first week coursera)
此时：

θ j : θ j - α 1 m \sum i = 1 m (h θ (x (i)) - y (i)) x (i) j, (j = 0, . ., n)

$\theta_j:\theta_j-\alpha \frac{1}{m}\sum_{i=1}^{m}(h_\theta(x^{(i)})-y^{(i)})x_j^{(i)} ,(j=0,..,n)$

Feature Scaling(特征缩放)

当特征规模近似的时候，梯度下降法可以更快收敛。
一般采用均值归一化(Mean normalization)方法来缩放特征，将特征缩放到-1~+1这个范围。

x = x - x ⎯ ⎯ x m a x

$x=\frac{x-\overline{x}}{x_{max}}$
还有就是归一化到 0~+1这个范围：

x = x - x m i n x m a x - x m i n

$x=\frac{x-x_{min}}{x_{max}-x_{min}}$

learning rate: $\alpha$

如果 $\alpha$ 很小，收敛会很慢；
如果 $\alpha$ 太大，每次迭代后Cost function $J(\theta)$ 可能不会减小，最终不能收敛。
实际过程中，可以通过给 $\alpha$ 设置为0.001，0.01，0.1，1，分别画出 $J(\theta)$ 函数的图，查看收敛情况，来选择更合适的 $\alpha$ 值。

Polynomial Regression(多项式回归)

我们可以提升特征以及假设函数的形式通过不同的方式，例如，我们可以将特征融合为一个，比如通过将特征1和特征2生成一个特征3。
但是新生成的特征一定要注意特征缩放的问题，新生成的特征值规模可能会很大。

Normal Equation(正规方程)

这里写图片描述
使用正规方程来直接求解 $\theta=(X^TX)^{-1}X^Ty$
In matlab: $inv(X'*X)*X'*y$
正规方程法和梯度下降法对应，是求解最小化 $J(\theta)$ 时 $\theta$ 值得另一种方法。

Gradient Descent	Normal Equation
需要选择学习速率 $\alpha$	不需要选择 $\alpha$
需要多次迭代	不需要迭代
$O(kn^2)$	$O(n^3)$ need to calculate $(X^TX)^{-1}$
当特征数n很大时考虑(n>10000)	当n<10000时考虑

实际上，正定方程法对于有些方法是不适用的，即当 $X^TX$ 不可逆时，方程法就不能求解了。比如logistic regression，就不能用正定方程法，只能使用梯度下降法。
$X^TX$ 不可逆的常见原因：
- 存在冗余特征，两个特征密切相关的，比如线性冗余，比如一个特征使用 $m^2$ 表示面积，另一个特征使用 $feet^2$ 表示面积，这两个特征就是冗余了；
- 当矩阵X的行数m<列数n时， $X^TX$ 是不可逆的。而m代表训练集的个数，n代表特征个数。所以当不能正定方程法，尝试使用正则化剔除一些特征，减小特征个数n

Matlab/Octave 常用命令

pwd:显示当前路径,cd和ls可以改变路径；
load feature.dat和load target.dat导入特征和目标数据集；
who or whos:显示当前工作空间中的变量；
save hello.mat v:将变量v存在hello.mat文件中;
save hello.txt v -ascii:将变量v存在hello.txt文件中;
A(:):将矩阵A中所有元素放入到一个向量中。
magic(n): $\frac{1+2+3+...+n^2}{n},n\ge3$
**[r,c]=find(A>=7):**r,c分别对应矩阵A中>=7元素的行列标号。

A = ⎡ ⎣ ⎢ ⎢ 834159672 ⎤ ⎦ ⎥ ⎥

$A=\begin{bmatrix} 8&1&6\\ 3&5&7\\ 4&9&2\\ \end{bmatrix}$

r = ⎡ ⎣ ⎢ ⎢ 132 ⎤ ⎦ ⎥ ⎥

$r=\begin{bmatrix} 1\\ 3\\ 2\\ \end{bmatrix}$

A = ⎡ ⎣ ⎢ ⎢ 123 ⎤ ⎦ ⎥ ⎥

$A=\begin{bmatrix} 1\\ 2\\ 3\\ \end{bmatrix}$

A (1, 2) = 8; A (3, 2) = 9; A (2, 3) = 7

$A(1,2)=8;A(3,2)=9;A(2,3)=7$
plot(x,y);hold on保持原图存在
xlabel(‘x’),ylabel(‘y’),legend(‘cos’,’sin’),title(‘my plot)’,print dpng ‘myplot.png’打印为图片,close关闭

h θ (x) = \sum j = 0 n θ j x j = θ T x

$h_\theta(x)=\sum_{j=0}^n \theta_j x_j=\theta^Tx$

θ ⃗ = ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ θ 0 θ 1 θ 2 ⋮ θ n ⎤ ⎦ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥

$\vec{\theta}=\begin{bmatrix} \theta_0 \\ \theta_1\\ \theta_2\\ \vdots\\ \theta_n\\ \end{bmatrix}$

X ⃗ = ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ x 0 x 1 ⋮ x n ⎤ ⎦ ⎥ ⎥ ⎥ ⎥

$\vec{X}=\begin{bmatrix} x_0\\ x_1\\ \vdots\\ x_n\\ \end{bmatrix}$
此时，计算

hθ(x) $h_\theta(x)$ 的值，在MATLAB中一步就可以了：

θ′∗x $\theta'*x$

腾原

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Second week of machine learning on Coursera

Second week of machine learning on Coursera@(Coursera)Multivariate Linear Regression当线性模型的特征从一个变量到多个变量时，引出了本节的多元线性回归。 Size number of bedrooms number of floors age of home price 2104 5 1
复制链接

扫一扫