关闭

基于梯度下降算法求解线性回归

1981人阅读 评论(0) 收藏 举报
分类:

线性回归(Linear Regression)

梯度下降算法在机器学习方法分类中属于监督学习。利用它可以求解线性回归问题,计算一组二维数据之间的线性关系,假设有一组数据如下下图所示
这里写图片描述
其中X轴方向表示房屋面积、Y轴表示房屋价格。我们希望根据上述的数据点,拟合出一条直线,能跟对任意给定的房屋面积实现价格预言,这样求解得到直线方程过程就叫线性回归,得到的直线为回归直线,数学公式表示如下:
这里写图片描述

二:梯度下降 (Gradient Descent)

这里写图片描述
这里写图片描述
这里写图片描述
这里写图片描述

三:代码实现

数据读入

public List<DataItem> getData(String fileName) {
    List<DataItem> items = new ArrayList<DataItem>();
    File f = new File(fileName);
    try {
        if (f.exists()) {
            BufferedReader br = new BufferedReader(new FileReader(f));
            String line = null;
            while((line = br.readLine()) != null) {
                String[] data = line.split(",");
                if(data != null && data.length == 2) {
                    DataItem item = new DataItem();
                    item.x = Integer.parseInt(data[0]);
                    item.y = Integer.parseInt(data[1]);
                    items.add(item);
                }
            }
            br.close();
        }
    } catch (IOException ioe) {
        System.err.println(ioe);
    }
    return items;
}

归一化处理

public void normalization(List<DataItem> items) {
    float min = 100000;
    float max = 0;
    for(DataItem item : items) {
        min = Math.min(min, item.x);
        max = Math.max(max, item.x);
    }
    float delta = max - min;
    for(DataItem item : items) {
        item.x = (item.x - min) / delta;
    }
}

梯度下降

public float[] gradientDescent(List<DataItem> items) {
    int repetion = 1500;
    float learningRate = 0.1f;
    float[] theta = new float[2];
    Arrays.fill(theta, 0);
    float[] hmatrix = new float[items.size()];
    Arrays.fill(hmatrix, 0);
    int k=0;
    float s1 = 1.0f / items.size();
    float sum1=0, sum2=0;
    for(int i=0; i<repetion; i++) {
        for(k=0; k<items.size(); k++ ) {
            hmatrix[k] = ((theta[0] + theta[1]*items.get(k).x) - items.get(k).y);
        }

        for(k=0; k<items.size(); k++ ) {
            sum1 += hmatrix[k];
            sum2 += hmatrix[k]*items.get(k).x;
        }

        sum1 = learningRate*s1*sum1;
        sum2 = learningRate*s1*sum2;

        // 更新 参数theta
        theta[0] = theta[0] - sum1;
        theta[1] = theta[1] - sum2;
    }

    return theta;
}

价格预言

public float predict(float input, float[] theta) {
    float result = theta[0] + theta[1]*input;
    return result;
}

线性回归图

public void drawPlot(List<DataItem> series1, List<DataItem> series2, float[] theta) {
    int w = 500;
    int h = 500;
    BufferedImage plot = new BufferedImage(w, h, BufferedImage.TYPE_INT_ARGB);
    Graphics2D g2d = plot.createGraphics();
    g2d.setRenderingHint(RenderingHints.KEY_ANTIALIASING, RenderingHints.VALUE_ANTIALIAS_ON);
    g2d.setPaint(Color.WHITE);
    g2d.fillRect(0, 0, w, h);
    g2d.setPaint(Color.BLACK);
    int margin = 50;
    g2d.drawLine(margin, 0, margin, h);
    g2d.drawLine(0, h-margin, w, h-margin);
    float minx=Float.MAX_VALUE, maxx=Float.MIN_VALUE;
    float miny=Float.MAX_VALUE, maxy=Float.MIN_VALUE;
    for(DataItem item : series1) {
        minx = Math.min(item.x, minx);
        maxx = Math.max(maxx, item.x);
        miny = Math.min(item.y, miny);
        maxy = Math.max(item.y, maxy);
    }
    for(DataItem item : series2) {
        minx = Math.min(item.x, minx);
        maxx = Math.max(maxx, item.x);
        miny = Math.min(item.y, miny);
        maxy = Math.max(item.y, maxy);
    }
    // draw X, Y Title and Aixes
    g2d.setPaint(Color.BLACK);
    g2d.drawString("价格(万)", 0, h/2);
    g2d.drawString("面积(平方米)", w/2, h-20);

    // draw labels and legend
    g2d.setPaint(Color.BLUE);
    float xdelta = maxx - minx;
    float ydelta = maxy - miny;
    float xstep = xdelta / 10.0f;
    float ystep = ydelta / 10.0f;
    int dx = (w - 2*margin) / 11;
    int dy = (h - 2*margin) / 11;

    // draw labels
    for(int i=1; i<11; i++) {
        g2d.drawLine(margin+i*dx, h-margin, margin+i*dx, h-margin-10);
        g2d.drawLine(margin, h-margin-dy*i, margin+10, h-margin-dy*i);
        int xv = (int)(minx + (i-1)*xstep);
        float yv = (int)((miny + (i-1)*ystep)/10000.0f);
        g2d.drawString(""+xv, margin+i*dx, h-margin+15);
        g2d.drawString(""+yv, margin-25, h-margin-dy*i);
    }

    // draw point
    g2d.setPaint(Color.BLUE);
    for(DataItem item : series1) {
        float xs = (item.x - minx) / xstep + 1;
        float ys = (item.y - miny) / ystep + 1;
        g2d.fillOval((int)(xs*dx+margin-3), (int)(h-margin-ys*dy-3), 7,7);
    }
    g2d.fillRect(100, 20, 20, 10);
    g2d.drawString("训练数据", 130, 30);

    // draw regression line
    g2d.setPaint(Color.RED);
    for(int i=0; i<series2.size()-1; i++) {
        float x1 = (series2.get(i).x - minx) / xstep + 1;
        float y1 = (series2.get(i).y - miny) / ystep + 1;
        float x2 = (series2.get(i+1).x - minx) / xstep + 1;
        float y2 = (series2.get(i+1).y - miny) / ystep + 1;
        g2d.drawLine((int)(x1*dx+margin-3), (int)(h-margin-y1*dy-3), (int)(x2*dx+margin-3), (int)(h-margin-y2*dy-3));
    }
    g2d.fillRect(100, 50, 20, 10);
    g2d.drawString("线性回归", 130, 60);


    g2d.dispose();
    saveImage(plot);
}

四:总结

本文通过最简单的示例,演示了利用梯度下降算法实现线性回归分析,使用更新收敛的算法常被称为LMS(Least Mean Square)又叫Widrow-Hoff学习规则,此外梯度下降算法还可以进一步区分为增量梯度下降算法与批量梯度下降算法,这两种梯度下降方法在基于神经网络的机器学习中经常会被提及,对此感兴趣的可以自己进一步探索与研究。

只分享干货,不止于代码

5
0
查看评论

利用梯度下降的方式求线性回归中参数的一些经验总结

这个是coursera里的machine learning课程的作业,在用matlab实现的过程中我总结了一些经验 1. 梯度下降也分成两个部分,一个是cost function的实现,一个是θ\theta的实现 2. 这里要尽量采用向量的计算方法,注意向量的计算方法不是矩阵的计算方法,总结一下...
  • dawningblue
  • dawningblue
  • 2017-08-30 17:12
  • 225

机器学习笔记(三) 线性回归及梯度下降算法

机器学习中线性回归相关的内容。包括线性回归损失函数的由来,梯度下降法的应用,正则化处理。
  • sinat_22594309
  • sinat_22594309
  • 2017-02-15 14:44
  • 1117

基于matlab的梯度下降法实现线性回归

基于matlab的梯度下降法实现线性回归1 绪论 1.1线性回归的定义 1.2单变量线性回归 1.3多变量线性回归2 梯度下降 2.1 cost function 2.2 梯度下降:解决线性回归的方法之一 2.3 feature scaling:加快梯度下降执行速度的方法 2.4...
  • shaguabufadai
  • shaguabufadai
  • 2017-06-04 13:04
  • 373

机器学习通俗入门-使用梯度下降法解决最简单的线性回归问题

动机一直以来,使用机器学习的算法都是用他人写好的类库,总觉得云里雾里的,弄不清楚到底怎么回事。今天实现了一个最简单的线性回归分析,觉得收货很大。纸上得来终觉浅,绝知此事要躬行。回归分析数据假设有一组数据,知道自变量和因变量的值,如下例:3.0000 10.0000 3.1000 10.300...
  • TaiJi1985
  • TaiJi1985
  • 2017-06-04 13:16
  • 818

Python实现 线性回归(梯度下降)

import numpy as np import pandas as pd from numpy import * from pandas import * import matplotlib.pyplot as plt x = np.array([[1,2],[2,1],[3,2.5],[4...
  • jiuniangyuanzikk
  • jiuniangyuanzikk
  • 2017-11-13 18:09
  • 235

线性回归与梯度下降(附Matlab实现)

本文介绍一下机器学习中的线性回归问题,线性回归问题是机器学习中常见的问题之一,相比较之后的其他算法,也是一种比较容易理解的算法。 一、Linear Regression 说到线性回归,自然要从其中的“回归”说起,回归应该算是一个统计学属于,其在某百科中定义如下: 回归,研究一个随机变量Y...
  • u013571752
  • u013571752
  • 2014-03-09 11:36
  • 4743

线性回归最小二乘法和梯度下降法

问题描述首先我们定义问题,线性回归要解决的问题就是根据给出的数据学习出一个线性模型。 例如我们最常说的身高和体重的关系,以及房屋面积和房价的关系,这里给出一个瑞典汽车保险数据集 数据集 可以直接复制出来用 两列分别表示 索赔要求数量 对所有索赔的总赔付,以千瑞典克朗计 数据前五行108 ...
  • y990041769
  • y990041769
  • 2017-04-07 17:25
  • 2237

斯坦福机器学习: 网易公开课系列笔记(二)——线性回归、梯度下降算法和最小二乘公式

课程一共分为三个板块,分别讲述了监督学习、非监督学习、增强学习的一些模型和相关算法。那么什么是监督学习?非监督学习?强化学习呢?      我们可以这样理解,假如我们对某个地区的鸟类进行分类,为了简便起见,每个鸟类的样本包括{体长,颜色,喙...
  • qsczse943062710
  • qsczse943062710
  • 2017-02-17 13:24
  • 1472

通俗易懂地介绍梯度下降法(以线性回归为例,配以Python示例代码)

转载:https://spin.atomicobject.com/2014/06/24/gradient-descent-linear-regression/ An Introduction to Gradient Descent and Linear Regression ...
  • huludan
  • huludan
  • 2016-10-30 15:41
  • 511

梯度下降法求解线性回归之python实现

线性回归其实就是寻找一条直线拟合数据点,使得损失函数最小。直线的表达式为: yi=ω1xi,1+ω2xi,2+ωjxi,j+...+by_i = \omega_1x_{i,1}+\omega_2x_{i,2}+\omega_jx_{i,j}+...+b 损失函数的表达式为: J=12∑i=0m...
  • just_do_it_123
  • just_do_it_123
  • 2016-04-04 13:52
  • 4109
    个人说明
    独立图像处理开发者
    图像处理与对象识别算法外包
    OCR与美化类滤镜开发
    安卓与IOS图像类应用开发

    OpenCV学习群:376281510

    学习图像处理技术关注
    公众号:【OpenCV学堂】
    个人联系方式:
    QQ: 57558865
    个人资料
    • 访问:2855057次
    • 积分:24120
    • 等级:
    • 排名:第331名
    • 原创:257篇
    • 转载:1篇
    • 译文:2篇
    • 评论:1398条
    博客专栏
    最新评论