机器学习入门-线性模型（二）

最新推荐文章于 2022-10-31 11:12:09 发布

CallMeSP

最新推荐文章于 2022-10-31 11:12:09 发布

阅读量296

点赞数

分类专栏：机器学习入门文章标签：西瓜书线性回归ｌｏｇｉｓｔｉｃ公式推导机器学习

本文链接：https://blog.csdn.net/CallMeSP/article/details/81138043

版权

本文介绍了机器学习中的线性模型，重点关注梯度下降法，包括其在大规模数据集中的优势及特征缩放的重要性。同时，讨论了最小化代价函数的不同算法，如Gradient Descent、Normal Equation等，并对极大似然法与梯度下降的公式推导进行了详细解释，解答了西瓜书习题3.3的相关问题。

摘要由CSDN通过智能技术生成

首先稍微再补充一点理论性的知识。

关于最小化代价函数的几种算法。

Gradient Descent
Normal equation
Conjugate gradient
BFGS
L-BFGS

由于难度原因本篇只关注gradient descent梯度下降法，这个方法应用比较广泛,在无法使用正规方程法的许多条件下依然可以奏效，其对比正规方程法的优点是在数据量较大的时候仍然能取得较好的结果因为其复杂度 $n^2$ 数量级，而正规方程法则达到了 $n^3$ 的数量级。其缺点则是需要选取 $\alpha$ ，以及需要一定数量的迭代。
另外在应用中需要注意的就是Feature scaling，梯度下降法是需要对特征值进行处理的，确保大致在统一尺度上，而正规方程法则不需要考虑这个方面。
其算法的主要逻辑就是根据微积分学上的梯度进行值的迭代变化（因为梯度方向是函数值变化最快的方向）
Repeat｛
　　　　　 $\theta_{j}=\theta_{j}-\alpha*\frac{1}{m}\sum_{i=1}^{m}(h_{\theta}(x^{(i)})-y^{(i)})*X_{j}^{(i)}$
｝
Notes:simultaneously updata $\theta_j$ for j=0,1….n
其次是对于上一篇博客中一些公式的推导

极大似然法与梯度下降

在上一章的实战环节中其中一段梯度下降的核心代码如下所示：

def gradAscent(dataMatIn,classLabels):
    # 将普通矩阵转化为numpy矩阵数据类型
    dataMatrix=mat(dataMatIn)
    # 矩阵的转置，转化为列矩阵
    labelMat=mat(classLabels).transpose()
    m,n=shape(dataMatrix)
    alepha=0.001
    maxCycles=500
    weights=ones((n,1))
    for k in range(maxCycles):
        h=sigmoid(dataMatrix*weights)
        error=(labelMat-h)
        weights=weights+alepha*dataMatrix.transpose()*error
    return weights