机器学习实战 ——ch08.回归

最新推荐文章于 2022-08-14 22:59:08 发布

591984826

最新推荐文章于 2022-08-14 22:59:08 发布

阅读量272

点赞数

分类专栏：机器学习实战

本文链接：https://blog.csdn.net/u011629133/article/details/52211770

版权

机器学习实战专栏收录该内容

6 篇文章 0 订阅

订阅专栏

一、基础知识准备：

1.线性回归：

１） 统计回归分析的任务：
根据x1,x2,x3,...,xp和观察值Y，去估计函数f，寻求变量之间近似的函数关系

２） 参数回归 & 线性回归：
我们常用的是，假定f函数的数学形式已知，其中若干个参数未知，要通过自变量和因变量的观察值去估计未知的参数值。这叫“参数回归”。其中应用最广泛的是f为线性函数的假设：

$f (x 1, x 2, x 3, . . ., x p) = b 0 + b 1 x 1 + b 2 x 2 + . . . + b p x p$ $f({x_1},{x_2},{x_3},...,{x_p}) = {b_0} + {b_1}{x_1} + {b_2}{x_2} + ... + {b_p}{x_p}$
这种情况叫做“线性回归”

3） 一元线性回归 & 多元线性回归：
自变量只有一个时，叫做一元线性回归
$h θ (x) = θ 0 + θ 1 x$ ${h_\theta }(x) = {\theta _0} + {\theta _1}x$
自变量有多个时，叫做 多元线性回归 $h θ (x) = θ 0 + θ 1 x 1 + θ 2 x 2 + . . . + θ m x m (x 0 = 1)$ ${h_\theta }(x) = {\theta _0} + {\theta _1}{x_1} + {\theta _2}{x_2} + ... + {\theta _m}{x_m}({x_0} = 1)$
可简化为： $h θ (x) = \sum i = 0 m θ i x i$ ${h_\theta }(x) = \sum\limits_{i = 0}^m {{\theta _i}{x_i}}$

4）分类(Classification) &回归(Regression):
共同点：都属于监督学习
区别：
– 分类用于预测有限的离散值，如是否得了癌症(0,1)或手写数字的判断，是0,1,2,3,4,5,6,7,8还是9等。分类中，预测的可能的结果是有限的，且提前给定的。
– 回归：用于预测实数值(连续值)，如给定了房子的面积，地段，和房间数，预测房子的价格。

2.求解线性回归的方法：

1) 梯度下降法： 主要思想是，函数在沿着其梯度方向增加最快的，那么要找到该函数的最小值，可以沿着梯度的反方向来迭代寻找。也就是说，给定一个初始位置后，寻找当前位置函数减小最快的方向，加上一定步长即可到达下一位置，然后再寻找下一位置最快的方向来到达再下一个位置……，直至其收敛
这个可以参考coursera的《machine learning》课程中的讲解和一些blog：
http://www.cnblogs.com/fanyabo/p/4060498.html
http://www.cnblogs.com/jcchen1987/p/4401533.html
http://blog.sina.com.cn/s/blog_68c81f3901019hhp.html

2) 最小二乘法：核心思想是 平方误差之和最小
具体推导过程：http://www.cnblogs.com/fanyabo/p/4060498.html
推导结果：

$θ = (X T X) - 1 X T y ⃗$ $\theta = {({X^T}X)^{ - 1}}{X^T}\vec y$

3) 其他方法暂时未接触到，待补充

3 局部线性回归：

引入高斯核，用于解决线性回归的过拟合现象
高斯核权重公式：

$ω (i, j) = exp (∣ ∣ x ( i ) - x ∣ ∣ - 2 k 2)$ $\omega (i,j) = \exp ({{\left| {{x^{(i)}} - x} \right|} \over { - 2{k^2}}})$
其中，x(i)为高斯分布的中心位置（x离x(i)越近，权重越大）；k为高斯分布的范围（平坦程度，k越大，曲线分布范围越广，越平坦）

4.算法代码及注释：

from numpy import *

#打开一个用Tab键分割的文本文件（默认文件每行的最后一个值是目标值）
#返回文本文件所包含的数据集合、特征标签信息
def loadDataSet(filename):
    numFeat = len(open(filename).readline().split('\t')) -1
    dataMat =[]
    labelMat = []
    fr = open(filename)
    for line in fr.readlines():
        lineArr = []
        curLine = line.strip().split('\t')
        for i in range(numFeat):
            lineArr.append(float(curLine[i]))
        dataMat.append(lineArr)
        labelMat.append(float(curLine[-1]))
    return dataMat,labelMat

#根据"最小二乘法"公式计算最佳拟合曲线
def standRegres(xArr,yArr):
    xMat = mat(xArr)
    yMat = mat(yArr).T
    xTx = xMat.T * xMat
    if linalg.det(xTx) == 0.0: #当矩阵的行列式等于0，矩阵不可逆
        print "This matrix is singular, cannot do inverse"
    ws = xTx.I * (xMat.T * yMat)
    return ws

#局部加权线性回归函数（LWLR）
def lwlr(testPoint,xArr,yArr,k=0.0):
    xMat = mat(xArr)
    yMat = mat(yArr).T
    m = shape(xMat)[0]
    weights = mat(eye(m))
    for j in range(m):
        diffMat = testPoint - xMat[j,:]
        weights[i,j] = exp(diffMat *diffMat.T/(-2.0*k**2)) #高斯核
    xTx = xMat.T * (weights * xMat)
    if linalg.det(xTx) ==0.0:
        print "This matrix is singular, cannot do inverse"
    ws = xTx.I * (xMat.T * (weights * yMat))
    return testPoint * ws

#统计回归误差，便于对比
def resError(yArr,yHatArr):
    return ((yArr - yHatArr)**2).sum()

591984826

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
机器学习实战 ——ch08.回归

一、基础知识准备：1.线性回归：１）统计回归分析的任务：根据x1,x2,x3,...,xp和观察值Y，去估计函数f，寻求变量之间近似的函数关系２）参数回归 & 线性回归：我们常用的是，假定f函数的数学形式已知，其中若干个参数未知，要通过自变量和因变量的观察值去估计未知的参数值。这叫“参数回归”。其中应用最广泛的是f为线性函数的假设： f(x1,x2,x3,
复制链接

扫一扫