机器学习算法逻辑回归Logistic Regression之c++实现（不调用外源库）

AI街潜水的八角

已于 2023-12-26 14:49:05 修改

阅读量236

点赞数

分类专栏：从零实现十大机器学习文章标签：算法机器学习逻辑回归 c++

于 2023-09-27 11:20:27 首次发布

本文链接：https://blog.csdn.net/m0_59023219/article/details/133344515

版权

从零实现十大机器学习专栏收录该内容

10 篇文章 2 订阅

订阅专栏

目前玩机器学习的小伙伴，上来就是使用现有的sklearn机器学习包，写两行代码，调调参数就能跑起来，看似方便，实则有时不利于个人能力发展，要知道现在公司需要的算法工程师，不仅仅只是会调参（这种工作，入门几个月的人就可以干了），而是要深入底层，能优化代码，能自己搭。

本文章适合以下几类人：

1）初学者，了解机器学习的实现过程

2）想提升自己的代码能力

第一步：原理

简单来说，逻辑回归（Logistic Regression）是一种用于解决二分类（0 or 1）问题的机器学习方法，用于估计某种事物的可能性。比如某用户购买某商品的可能性，某病人患有某种疾病的可能性，以及某广告被用户点击的可能性等。注意，这里用的是“可能性”，而非数学上的“概率”，logisitc回归的结果并非数学定义中的概率值，不可以直接当做概率值来用。该结果往往用于和其他特征值加权求和，而非直接相乘。

那么逻辑回归与线性回归是什么关系呢？

逻辑回归（Logistic Regression）与线性回归（Linear Regression）都是一种广义线性模型（generalized linear model）。逻辑回归假设因变量 y 服从伯努利分布，而线性回归假设因变量 y 服从高斯分布。因此与线性回归有很多相同之处，去除Sigmoid映射函数的话，逻辑回归算法就是一个线性回归。可以说，逻辑回归是以线性回归为理论支持的，但是逻辑回归通过Sigmoid函数引入了非线性因素，因此可以轻松处理0/1分类问题。

第二步：代码实现

#include <iostream>
#include <stdlib.h>
#include <string>
#include <math.h>
#include "matrix.h"
#include <fstream>
#include <sstream>
#include <stack>
#include <random>
#include<time.h>
using namespace std;
#define MAX 1000000
#define MIN -100000

double sigmoid(double z)
{
    return 1.0/(1 + exp(-z));
}

/**
梯度上升算法，主要是确定负梯度方向，步长，采用迭代的思想迭代n至收敛，
当目标函数是凸规划问题，那么局部最小值就是全局最小值

在这里梯度下降和上升的区别，可以参考 http://blog.csdn.net/dongtingzhizi/article/details/15962797
**/
void gradAscent(Matrix dataMatIn, Matrix classLabels)
{
    double alpha = 0.001;
    int maxCycles = 500;
    int m = dataMatIn.col;
    int n = dataMatIn.row;
    Matrix weights;
    weights.initMatrix(&weights,n,1,1);

    Matrix dataMuWeights;
    dataMuWeights.initMatrix(&dataMuWeights, m, 1);

    Matrix error;
    error.initMatrix(&error, m, 1);

    Matrix dataMatInT;
    dataMatInT.initMatrix(&dataMatInT,n,m);
    dataMatInT.transposematrix(dataMatIn, &dataMatInT);

    Matrix dataMuError;
    dataMuError.initMatrix(&dataMuError,n,1);

    for (int i = 0; i < maxCycles; i++)
    {
        dataMuWeights.multsmatrix(&dataMuWeights, dataMatIn, weights);
        for (int j = 0; j < m; j++)
        {
            dataMuWeights.mat[j][0] = sigmoid(dataMuWeights.mat[j][0]);
        }
        error.submatrix(&error, classLabels, dataMuWeights);

        dataMuError.multsmatrix(&dataMuError, dataMatInT, error);
        for (int j = 0; j < n; j++)
        {
            dataMuError.mat[j][0] = alpha * dataMuError.mat[j][0];
        }

        weights.addmatrix(&weights,weights, dataMuError);
    }
    weights.print(weights);
    /**
    验证算法的正确性
    **/

    Matrix test;
    test.initMatrix(&test,dataMatIn.col, 1);
    test.multsmatrix(&test, dataMatIn, weights);
    for (int i = 0; i < m; i++)
    {
        if (test.mat[i][0] > 0)
        {
            cout<<1<<endl;
        }
        else
            cout<<0<<endl;
    }
}


void stocGradAscent(Matrix dataMatIn, Matrix classLabels)
{

}

/**
随机梯度下降与梯度下降法不同的是在负梯度方向的确定，梯度下降是根据所有的样本来确定负梯度方向，
而随机梯度下降每次只看一个样本点来确定负梯度方向，虽然不完全可信，但随着迭代次数增加，同样收敛

**/



//通过随机选取样本来更新回归系数，这种方法可以减少周期性的波动
//步长在不断的减少

void stocGradAscent1(Matrix dataMatIn, Matrix classLabels, int numIter = 150)
{

}



/**
逻辑回归，这里主要考虑其常用的两种求参数算法，一种是梯度下降，一种是随机梯度下降

*/

int main()
{
    srand((unsigned)time(NULL));
    dataToMatrix dtm;
    cout<<"loadData"<<endl;
    cout<<"----------------------"<<endl;
    char file[20]="logReg.txt";
    dtm.loadData(&dtm,file);

    Matrix x;
    x.loadMatrix(&x,dtm);

    Matrix y;
    y.initMatrix(&y,x.col,1);
    y=y.getOneRow(x,x.row - 1);

    x.deleteOneRow(&x,x.row);

    //gradAscent(x,y);
    stocGradAscent1(x,y);
    return 0;
}

第三步：运行过程

运行结果