看懂这一篇,你就入门机器学习了

一、引言inreoduction

机器学习主要分为:监督学习,无监督学习,半监督学习(强化学习)

1. 1监督学习Supervised learning

定义:

教计算机完成某事,训练数据集Train data有特征Features和标签Labels即包括神经网络Neural network中的输入层Input和输出层Output。

截屏2020-10-31 上午11.05.26

流程:

通过给定的训练样本(已知输入层和输出层),训练得出最优的假设函数Hypothesis function h θ ( x ) h_\theta(x) hθ(x)的模型参数parameter(权重weight) Θ \Theta Θ,从而得出了 h θ ( x ) h_\theta(x) hθ(x)的可计算函数。最后输入测试集Test data的输入层(即特征变量),由 h θ ( x ) h_\theta(x) hθ(x)计算得出输出预测

实例:

分类问题Classification,回归问题Regression。

房价预测Housing prince prediction,乳腺癌分类

1.2 无监督学习Unsupervised learning

定义:

计算机自己找到某种结构规律。给定的数据集中无标签,数据类别未知,计算机自己将一个样本集聚类Clustering分为若干个子集,使相同子集中的元素(样本)特征间距小。

分类:

  1. 概率密度Probability density估计的直接方法:设法找到各类别在特征空间的分布参数Distributed parameter,再进行分类。
  2. 基于样本相似性度量的简洁聚类方法:设法定出不同类别的核心或初始内核,然后依据样本与核心之间的相似性度量将样本聚类为不同的类别。

实例:

PCA, deep learning的一些算法,数据挖掘Data mining,模式识别Pattern recognition,图像处理Image processing,DNA微观数据,背景音乐提取等

利用无监督学习的聚类结果可以提取样本数据集中的隐藏Hidden信息,对未来数据进行分类和预测Forcast。

二、单变量线性回归Linear Regression with One variable

2.1 模型表述Model Representantion

单变量线性回归算法:房价预测为例

m m m:训练集样本数量

x x x:样本的特征/输入特征

y y y:目标变量/输出变量(labels)

( x , y ) (x,y) (x,y):训练集中的样本

( x ( i ) , y ( i ) ) (x^{(i)},y^{(i)}) (x(i),y(i)):训练集中第 i i i个样本

截屏2020-10-31 下午2.32.06

其中Size in feet​为特征 x 1 x_1 x1,price为输出变量 y y y

2.2 算法Algorithm

hypothesis function : h θ ( x ) = θ 0 + θ 1 x 1 h_\theta(x)=\theta_0+\theta_1x_1 hθ(x)=θ0+θ1x1

Cost function : J ( θ ) = 1 2 m ∑ i = 1 m ( h θ ( x ) ( i ) − y ( i ) ) 2 J(\theta)={1\over 2m}\sum^m_{i=1}(h_\theta(x)^{(i)}-y^{(i)})^2 J(θ)=2m1i=1m(hθ(x)(i)y(i))2

Gradient descent of Linear regression :

θ 0 = θ 0 − α ∂ J ( θ ) ∂ θ 0 = θ 0 − α m ∑ i = 1 m ( h θ ( x ) ( i ) − y ( i ) ) \theta_0=\theta_0-\alpha{\partial J(\theta)\over \partial\theta_0}=\theta_0-{\alpha\over m}\sum_{i=1}^m(h_\theta(x)^{(i)}-y^{(i)}) θ0=θ0αθ0J(θ)=θ0mαi=1m(hθ(x)(i)y(i))

θ 1 = θ 1 − α ∂ J ( θ ) ∂ θ 1 = θ 1 − α m ∑ i = 1 m [ ( h θ ( x ) ( i ) − y ( i ) ) x 1 ( i ) ] \theta_1=\theta_1-\alpha{\partial J(\theta)\over \partial\theta_1}=\theta_1-{\alpha\over m}\sum_{i=1}^m[(h_\theta(x)^{(i)}-y^{(i)})x_1^{(i)}] θ1=θ1αθ1J(θ)=θ1mαi=1m[(hθ(x)(i)y(i))x1(i)]

截屏2020-10-31 下午2.13.27

式中 θ 0 \theta_0 θ0为偏移项

假设函数为线性函数,损失函数为二次函数时:

θ 1 \theta_1 θ1代表假设函数的斜率,当 θ 1 \theta_1 θ1的值偏小,模型会处于正确回归线的下方,同时此时该点处于损失函数的递减区域, θ 1 \theta_1 θ1此时需要增加。这时候 J ( θ 1 ) J(\theta_1) J(θ1)的斜率为负数, θ 1 − J ( θ 1 ) 的 斜 率 \theta_1-J(\theta_1)的斜率 θ1J(θ1)为增加。

2.3 注意点Attention point

梯度下降gradient descent引入了学习率learning rate,式中用 α \alpha α表示。

学习率大小决定损失函数下降程度最大方向的步幅

  1. 学习率 α \alpha α过大时,可能无法接近最优点,甚至可能发散。
  2. 学习率 α \alpha α过小时,需要迭代的次数就越多。
  3. 在对 θ 0 , θ 1 \theta_0, \theta_1 θ0,θ1迭代时,应同时迭代再更新 θ \theta θ的值
  4. 注意对一个批量样本迭代完成后应该清空梯度,也就是将: θ 1 = θ 1 − ∂ J ( θ ) ∂ θ 1 = θ 1 − 1 m ∑ i = 1 m [ ( h θ ( x ) ( i ) − y ( i ) ) x 1 ( i ) ] \theta_1=\theta_1-{\partial J(\theta)\over \partial\theta_1}=\theta_1-{1\over m}\sum_{i=1}^m[(h_\theta(x)^{(i)}-y^{(i)})x_1^{(i)}] θ1=θ1θ1J(θ)=θ1m1i=1m[(hθ(x)(i)y(i))x1(i)]中的叠加项清空,迭代下一批样本时应从0开始计算。

三、多变量线性回归Linear Regression with Multiple variable

3.1 模型描述Model Representantion

截屏2020-10-31 下午2.48.46

其中size为特征变量 x 1 x_1 x1

number of bedrooms为特征变量 x 2 x_2 x2

number of floors为特征变量 x 3 x_3 x3

age为特征变量 x 4 x_4 x4

price为输出变量 y y y

x i x^i xi上标代表第 i i i个样本

3.2 算法Algorithm

Hypothesis function : h θ ( x ) = θ 0 + θ 1 x 1 + θ 2 x 2 + θ 3 x 3 + θ 4 x 4 h_\theta(x)=\theta_0+\theta_1x_1+\theta_2x_2+\theta_3x_3+\theta_4x_4 hθ(x)=θ0+θ1x1+θ2x2+θ3x3+θ4x4

Cost function : J ( θ ) = 1 2 m ∑ i = 1 m ( h θ ( x ) ( i ) − y ( i ) ) 2 J(\theta)={1\over 2m}\sum^m_{i=1}(h_\theta(x)^{(i)}-y^{(i)})^2 J(θ)=2m1i=1m(hθ(x)(i)y(i))2

Gradient descent of Linear Regression :

θ 0 = θ 0 − α ∂ J ( θ ) ∂ θ 0 = θ 0 − α m ∑ i = 1 m ( h θ ( x ) ( i ) − y ( i ) ) \theta_0=\theta_0-\alpha{\partial J(\theta)\over \partial\theta_0}=\theta_0-{\alpha\over m}\sum_{i=1}^m(h_\theta(x)^{(i)}-y^{(i)}) θ0=θ0αθ0J(θ)=θ0mαi=1m(hθ(x)(i)y(i))

θ 1 = θ 1 − α ∂ J ( θ ) ∂ θ 1 = θ 1 − 1 m ∑ i = 1 m [ ( h θ ( x ) ( i ) − y ( i ) ) x 1 ( i ) ] \theta_1=\theta_1-\alpha{\partial J(\theta)\over \partial\theta_1}=\theta_1-{1\over m}\sum_{i=1}^m[(h_\theta(x)^{(i)}-y^{(i)})x_1^{(i)}] θ1=θ1αθ1J(θ)=θ1m1i=1m[(hθ(x)(i)y(i))x1(i)]

θ 4 = θ 4 − α ∂ J ( θ ) ∂ θ 4 = θ 4 − α m ∑ i = 1 m [ ( h θ ( x ) ( i ) − y ( i ) ) x 4 ( i ) ] \theta_4=\theta_4-\alpha{\partial J(\theta)\over \partial\theta_4}=\theta_4-{\alpha\over m}\sum_{i=1}^m[(h_\theta(x)^{(i)}-y^{(i)})x_4^{(i)}] θ4=θ4αθ4J(θ)=θ4mαi=1m[(hθ(x)(i)y(i))x4(i)]

3.3 特征缩放Feature Scaling

在训练样本集中,特征 x j x_j xj的取值范围如果相差很大即不同的特征变量尺度不统一,这样会导致梯度下降算法会收敛的很慢。

因此特征缩放(归一化)是十分必要的

将所有的特征缩放到[-1,1](合适的)之间。
其中默认 x 0 = 1 x_0=1 x0=1已经在范围内。将其他的特征除以不同的数达到合适的(|3||1/3|)范围
x 1 ← x 1 − μ 1 s 1 x_1\leftarrow{x_1-\mu_1 \over s_1} x1s1x1μ1
μ \mu μ:所有样本中特征x1的平均数
s 1 s_1 s1:特征x1中max - min

3.4 向量化 Vectorization

房价预测为例,特征变量:size , number , floors

Input : { x 1 : s i z e ; x 2 : n u m b e r ; x 3 : f l o o r s x_1:size;\quad x_2:number;\quad x_3:floors x1:size;x2:number;x3:floors}

Θ = [ θ 0 θ 1 θ 2 θ 3 ] X = [ 1 x 1 1 x 2 1 x 3 1 1 x 1 2 x 2 2 x 3 2 1 x 1 3 x 2 3 x 3 3 . . . 1 x 1 m x 2 m x 3 m ] \Theta={\begin {bmatrix}\theta_0 \\ \theta_1\\ \theta_2 \\ \theta_3 \end {bmatrix}} \quad X={\begin{bmatrix} 1 & x^1_1 & x_2^1&x_3^1 \\1&x_1^2&x_2^2& x_3^2 \\ 1&x_1^3&x_2^3&x_3^3 \\ ... \\1 & x_1^m & x_2^m& x^m_3 \end {bmatrix}}\quad Θ=θ0θ1θ2θ3X=111...1x11x12x13x1mx21x22x23x2mx31x32x33x3m

L a b e l s = [ l a b e l 1 l a b e l 2 l a b e l 3 . . . l e b e l m ] Y = [ θ 0 + θ 1 x 1 1 + θ 2 x 2 1 + θ 3 x 3 1 t h e t a 0 + θ 1 x 1 2 + θ 2 x 2 2 + θ 3 x 3 2 t h e t a 0 + θ 1 x 1 3 + θ 2 x 2 3 + θ 3 x 3 3 . . . t h e t a 0 + θ 1 x 1 m + θ 2 x 2 m + θ 3 x 3 m ] = [ y 1 y 2 y 3 . . . y m ] Labels={\begin{bmatrix} label_1 \\ label_2 \\ label_3\\ ...\\lebel_m\end{bmatrix}} \quad Y={\begin{bmatrix}\theta_0+\theta_1x_1^1+\theta_2x_2^1+\theta_3x_3^1\\theta_0+\theta_1x_1^2+\theta_2x_2^2+\theta_3x_3^2\\theta_0+\theta_1x_1^3+\theta_2x_2^3+\theta_3x_3^3\\...\\theta_0+\theta_1x_1^m+\theta_2x_2^m+\theta_3x_3^m \end{bmatrix}}={\begin{bmatrix}y_1\\y_2\\y_3\\...\\y_m \end {bmatrix}} Labels=label1label2label3...lebelmY=θ0+θ1x11+θ2x21+θ3x31theta0+θ1x12+θ2x22+θ3x32theta0+θ1x13+θ2x23+θ3x33...theta0+θ1x1m+θ2x2m+θ3x3m=y1y2y3...ym

Hypothesis function : h θ ( x ) = Y = X Θ h_\theta(x)=Y=X\Theta hθ(x)=Y=XΘ

Cost function : J ( θ ) = 1 2 m ∑ i = 1 m ( h θ ( x ) ( i ) − L a b e l s ( i ) ) 2 = 1 2 m ( X Θ − L a b e l s ) T ( X Θ − L a b e l s ) J(\theta)={1\over 2m}\sum^m_{i=1}(h_\theta(x)^{(i)}-Labels^{(i)})^2={1\over 2m}(X\Theta-Labels)^T(X\Theta-Labels) J(θ)=2m1i=1m(hθ(x)(i)Labels(i))2=2m1(XΘLabels)T(XΘLabels)

Gradient descent : θ j : = θ j − α 1 m ∑ i = 1 m [ ( h θ ( x ) ( i ) − L a b e l s ( i ) ) x j ( i ) ] = θ j − α 1 m X j 列 T ( X Θ − L a b e l s ) \theta_j := \theta_j-\alpha{1\over m}\sum^m_{i=1}[(h_\theta(x)^{(i)}-Labels^{(i)})x^{(i)}_j]=\theta_j-\alpha{1\over m}X_{j列}^T(X\Theta-Labels) θj:=θjαm1i=1m[(hθ(x)(i)Labels(i))xj(i)]=θjαm1XjT(XΘLabels)

3.5 正则化Regularization

在使用复杂的假设函数时,可能会出现过拟合的现象,泛化能力差。

可通过减少特征变量,减小特征多项式的次数,减小参数 θ j \theta_j θj的大小(将它们的值变小可使曲线更加的平滑)

因此加入正则化项即惩罚项。使部分特征变量对函数曲线的影响约等于0。或将所有参数都进行“惩罚”,使曲线平滑。

损失函数:注意 θ 0 \theta_0 θ0不需要正则化
J ( Θ ) = 1 2 m [ ∑ i = 1 m ( h θ ( x ( i ) ) − L a b e l s ( i ) ) 2 + λ ∑ j = 1 n θ j 2 ] J(\Theta)={1\over 2m}[\sum^m_{i=1}(h_\theta(x^{(i)})-Labels^{(i)})^2+\lambda \sum^n_{j=1}\theta^2_j] J(Θ)=2m1[i=1m(hθ(x(i))Labels(i))2+λj=1nθj2]

= 1 2 m ( X Θ − L a b e l s ) T ( X Θ − L a b e l s ) + λ 2 m ( Θ T Θ − θ 0 2 ) ={1\over 2m}(X\Theta-Labels)^T(X\Theta-Labels)+{\lambda\over 2m}(\Theta^T\Theta-\theta_0^2) =2m1(XΘLabels)T(XΘLabels)+2mλ(ΘTΘθ02)

优化函数(加入正则化项的梯度下降):
θ j : = θ j ( 1 − α λ m ) − α 1 m ∑ i = 1 m ( h θ ( x ( i ) ) − y ( i ) ) x j ( i ) \theta_j:=\theta_j(1-\alpha{\lambda \over m})-\alpha {1\over m}\sum^m_{i=1}(h_\theta(x^{(i)})-y^{(i)})x_j^{(i)} θj:=θj(1αmλ)αm1i=1m(hθ(x(i))y(i))xj(i)

Θ : = Θ ( 1 − α λ m ) − α 1 m X T ( X Θ − L a b e l s ) \Theta := \Theta(1-\alpha{\lambda\over m})-\alpha{1\over m}X^T(X\Theta-Labels) Θ:=Θ(1αmλ)αm1XT(XΘLabels)

If j == 0:

λ = 0 \lambda=0 λ=0

3.6 特征和多项式回归Featres and Polynomial Regression

在特征的选择中,避免选择无意义的特征变量。例如选择了房子的长和宽,再选择面积就重复选择了。

线性回归终究是一条直线,在很多的情况下都不能很好的拟合数据,因此这里引入多项式回归。即特征变量最高次大于等于2次。

例如: h θ ( x ) = θ 0 + θ 1 x 1 + θ 2 x 2 + θ 3 x 1 2 + θ 4 x 2 2 h_\theta(x)=\theta_0+\theta_1x_1+\theta_2x_2+\theta_3x_1^2+\theta_4x_2^2 hθ(x)=θ0+θ1x1+θ2x2+θ3x12+θ4x22

先观察数据,再决定使用怎样的模型。

这里注意多项式回归更加要做特征缩放

截屏2020-10-31 下午3.37.04

3.7 正规方程法Normal Equation

通过矩阵的方法直接求参数向量 Θ \Theta Θ

Θ = ( X T X ) − 1 X T y \Theta=(X^TX)^{-1}X^Ty Θ=(XTX)1XTy

注意矩阵的形状。

( X T X ) (X^TX) (XTX)的伪逆

四、逻辑回归Logistic Regression

4.1 模型描述Model Representention

逻辑回归适合用于分类问题,例如是否患癌症,是为1,否为0,样本为0/1分布。

这里的假设函数 h θ ( x ) h_\theta(x) hθ(x)指的是给定参数 θ \theta θ的前提下, y = 1 y=1 y=1即患病的概率

条件概率: h θ ( x ) = P ( y = 1 ∣ x ; Θ ) h_\theta(x)=P(y=1|x;\Theta) hθ(x)=P(y=1x;Θ)

逻辑回归: g ( z ) = 1 1 + e − z g(z)={1\over 1+e^{-z}} g(z)=1+ez1

其中 z = Θ T X z=\Theta^TX z=ΘTX

h θ ( x ) = g ( z ) = 1 1 + e − Θ T X h_\theta(x)=g(z)={1\over 1+e^{-\Theta^TX}} hθ(x)=g(z)=1+eΘTX1

截屏2020-11-01 上午12.07.59

将模型假设函数设为如上图所示的逻辑回归,例如设置 h θ ( x ) h_\theta(x) hθ(x)值大于0.5为患病,小于0.5为不患病。

4.2 算法Algorithm

z = Θ T X = θ 0 + θ 1 x 1 + θ 2 x 2 + θ 3 x 3 z=\Theta^TX=\theta_0+\theta_1x_1+\theta_2x_2+\theta_3x_3 z=ΘTX=θ0+θ1x1+θ2x2+θ3x3

g ( z ) = 1 1 + e − z = 1 1 + e − ( θ 0 + θ 1 x 1 + θ 2 x 2 + θ 3 x 3 ) g(z)={1\over 1+e^{-z}}={1\over 1+e^-(\theta_0+\theta_1x_1+\theta_2x_2+\theta_3x_3)} g(z)=1+ez1=1+e(θ0+θ1x1+θ2x2+θ3x3)1

Hypothesis function : h θ ( x ) = g ( z ) h_\theta(x)=g(z) hθ(x)=g(z)

Cost function :

J ( Θ ) = − 1 m ∑ i = 1 m [ y ( i ) l o g ( h θ ( x ( i ) ) ) + ( 1 − y ( i ) ) l o g ( 1 − h θ ( x ( i ) ) ) ] J(\Theta)=-{1\over m}\sum^m_{i=1}[y^{(i)}log(h_\theta(x^{(i)}))+(1-y^{(i)})log(1-h_\theta(x^{(i)}))] J(Θ)=m1i=1m[y(i)log(hθ(x(i)))+(1y(i))log(1hθ(x(i)))]

Gradient descent of Logistic Regression :

θ j : = θ j − α 1 m ∑ i = 1 m ( h θ ( x ( i ) ) − y ( i ) ) x j ( i ) \theta_j := \theta_j-\alpha{1\over m}\sum^m_{i=1}(h_\theta(x^{(i)})-y^{(i)})x^{(i)}_j θj:=θjαm1i=1m(hθ(x(i))y(i))xj(i)

4.3 向量化Vactorization

Input : x 1 , x 2 , x 3 x_1, x_2,x_3 x1,x2,x3

Θ = [ θ 0 θ 1 θ 2 θ 3 ] X = [ 1 x 1 1 x 2 1 x 3 1 1 x 1 2 x 2 2 x 3 2 . . . 1 x 1 m x 2 m x 3 m ] \Theta={\begin{bmatrix}\theta_0\\\theta_1\\\theta_2\\\theta_3 \end{bmatrix}}\quad X={\begin{bmatrix}1&x_1^1&x_2^1&x_3^1\\1&x_1^2&x_2^2&x_3^2\\...\\1&x_1^m&x_2^m&x_3^m \end{bmatrix}} Θ=θ0θ1θ2θ3X=11...1x11x12x1mx21x22x2mx31x32x3m

L a b e l s = [ l a b e l 1 l a b e l 2 . . . l a b e l m ] Z = X Θ = [ θ 0 + θ 1 x 1 1 + θ 2 x 2 1 + θ 3 x 3 1 θ 0 + θ 1 x 1 2 + θ 2 x 2 2 + θ 3 x 3 2 . . . θ 0 + θ 1 x 1 m + θ 2 x 2 m + θ 3 x 3 m ] Labels={\begin{bmatrix}label_1\\label_2\\...\\label_m \end{bmatrix}}\quad Z=X\Theta={\begin{bmatrix}\theta_0+\theta_1x_1^1+\theta_2x_2^1+\theta_3x_3^1 \\\theta_0+\theta_1x_1^2+\theta_2x_2^2+\theta_3x_3^2\\...\\\theta_0+\theta_1x_1^m+\theta_2x_2^m+\theta_3x_3^m\end{bmatrix}} Labels=label1label2...labelmZ=XΘ=θ0+θ1x11+θ2x21+θ3x31θ0+θ1x12+θ2x22+θ3x32...θ0+θ1x1m+θ2x2m+θ3x3m

Hypothesis function : Y = h θ ( x ) = g ( z ) = 1 1 + e − Z = 1 1 + e − X Θ Y=h_\theta(x)=g(z)={1\over 1+e^{-Z}}={1\over 1+e^{-X\Theta}} Y=hθ(x)=g(z)=1+eZ1=1+eXΘ1

Cost function : J ( θ ) = − 1 m ∑ i = 1 m L a b e l s ( i ) l o g ( h θ ( x ( i ) ) ) − 1 m ∑ i = 1 m ( 1 − L a b e l s ( i ) ) l o g ( 1 − h θ ( x ( i ) ) ) J(\theta)=-{1\over m}\sum^m_{i=1}Labels^{(i)}log(h_\theta(x^{(i)}))-{1\over m}\sum^m_{i=1}(1-Labels^{(i)})log(1-h_\theta(x^{(i)})) J(θ)=m1i=1mLabels(i)log(hθ(x(i)))m1i=1m(1Labels(i))log(1hθ(x(i)))

= − 1 m L a b e l s T ( l o g Y ) − 1 m ( [ 1 1 1 2 . . . 1 m ] − L a b e l s ) T [ l o g ( [ 1 1 1 2 . . . 1 m ] − Y ) ] =-{1\over m}Labels^T(logY)-{1\over m}({\begin{bmatrix}1^1\\1^2\\...\\1^m \end{bmatrix}}-Labels)^T[log({\begin{bmatrix}1^1\\1^2\\...\\1^m \end{bmatrix}}-Y)] =m1LabelsT(logY)m1(1112...1mLabels)T[log(1112...1mY)]

Gradient descent : θ j : = θ j − α 1 m X j T ( Y − L a b e l s ) \theta_j:=\theta_j-\alpha{1\over m}X_j^T(Y-Labels) θj:=θjαm1XjT(YLabels)

Θ = Θ − α 1 m X T ( Y − L a b e l s ) \Theta=\Theta-\alpha{1\over m}X^T(Y-Labels) Θ=Θαm1XT(YLabels)

4.4 正则化Regularization

损失函数:
J ( θ ) = − 1 m ∑ i = 1 m [ L a b e l s ( i ) l o g h θ ( x ( i ) ) + ( 1 − L a b e l s ( i ) ) l o g ( 1 − h θ ( x ( i ) ) ) ] + λ ∑ j = 1 n θ j 2 ] J(\theta)=-{1\over m}\sum^m_{i=1}[Labels^{(i)}logh_\theta(x^{(i)})+(1-Labels^{(i)})log(1-h_\theta(x^{(i)}))]+\lambda \sum^n_{j=1}\theta^2_j] J(θ)=m1i=1m[Labels(i)loghθ(x(i))+(1Labels(i))log(1hθ(x(i)))]+λj=1nθj2]

= − 1 m L a b e l s T ( l o g Y ) − 1 m ( [ 1 1 1 2 . . . 1 m ] − L a b e l s ) T [ l o g ( [ 1 1 1 2 . . . 1 m ] − Y ) ] + λ ( Θ T Θ − θ 0 2 ) =-{1\over m}Labels^T(logY)-{1\over m}({ \begin {bmatrix}1^1 \\1^2 \\...\\1^m \\ \end {bmatrix}}-Labels)^T[log({\begin{bmatrix} 1^1 \\1^2 \\...\\1^m \end{bmatrix}}-Y)]+\lambda(\Theta^T\Theta-\theta_0^2) =m1LabelsT(logY)m1(1112...1mLabels)T[log(1112...1mY)]+λ(ΘTΘθ02)

优化函数:加入正则化项的梯度下降:注意不要对 θ 0 \theta_0 θ0正则化
θ j : = θ j ( 1 − α λ m ) − α 1 m ∑ i = 1 m ( h θ ( x ( i ) ) − L a b e l s ( i ) ) x j ( i ) \theta_j:=\theta_j(1-\alpha{\lambda \over m})-\alpha {1\over m}\sum^m_{i=1}(h_\theta(x^{(i)})-Labels^{(i)})x_j^{(i)} θj:=θj(1αmλ)αm1i=1m(hθ(x(i))Labels(i))xj(i)

Θ : = Θ ( 1 − α λ m ) − α 1 m X T ( X Θ − L a b e l s ) \Theta := \Theta(1-\alpha{\lambda\over m})-\alpha{1\over m}X^T(X\Theta-Labels) Θ:=Θ(1αmλ)αm1XT(XΘLabels)

If j == 0:

λ = 0 \lambda=0 λ=0

4.5 判定边界Decision Boundary

若果 h ( x ) > = 0.5 h(x)>=0.5 h(x)>=0.5,判定会患病即" y = 1 y=1 y=1"
反之 h ( x ) < 0.5 h(x)<0.5 h(x)<0.5,判定不会患病即" y = 0 y=0 y=0"
又因为 h θ ( x ) = g ( z ) = g ( Θ T x ) = 1 1 + e − Θ T x h_\theta(x)=g(z)=g(\Theta^Tx)={1\over 1+e^{-\Theta^Tx}} hθ(x)=g(z)=g(ΘTx)=1+eΘTx1。由图像可知:
Θ T x > 0 \Theta^Tx>0 ΘTx>0时, h θ ( x ) = g ( Θ T x ) > 0.5 h_\theta(x)=g(\Theta^Tx)>0.5 hθ(x)=g(ΘTx)>0.5
Θ T x < 0 \Theta^Tx<0 ΘTx<0时, h θ ( x ) = g ( Θ T x ) < 0.5 h_\theta(x)=g(\Theta^Tx)<0.5 hθ(x)=g(ΘTx)<0.5

截屏2020-11-01 上午12.23.27

通过构造高次多项式的判定边界可以获得复杂的分类边界

截屏2020-11-01 上午12.25.40

4.6 多类别分类的逻辑回归Logistic Regression of One-vs-all Variable

将需要分类出来的某种类别样本标签设为1,其余的全部样本标签为0。依次完成每个类别的分类。

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值