逻辑回归+Python3实现

最新推荐文章于 2024-07-15 10:49:30 发布

CReep~

最新推荐文章于 2024-07-15 10:49:30 发布

阅读量800

点赞数 1

分类专栏：机器学习算法数据分析

本文链接：https://blog.csdn.net/justorderman/article/details/108442294

版权

机器学习算法同时被 2 个专栏收录

14 篇文章 3 订阅

订阅专栏

数据分析

4 篇文章 1 订阅

订阅专栏

文章目录

1.什么是逻辑回归

logistic回归又称logistic回归分析，是一种广义的线性回归分析模型。常用于数据挖掘，疾病自动诊断，经济预测等领域。值得一提的是该算法输出值永远在 0 到 1 之间。下面通过一个例子来了解下什么是逻辑回归。

假设现在我们有一个应用场景，根据肿瘤的大小来判断肿瘤是恶性的还是良性的。

我们从先从二元分类的问题开始讨论。

将因变量（dependent variable）可能属于的两个类分别称为负向类（negative）和正向类（positive class），因此因变量 y $\in$ 0,1，其中0表示负向类，1标志正向类。

对于肿瘤是良性还是恶性是个二分类问题，因此我们可以用 y = 1表示正向类，y = 0 表示负向类。因此我们可以引入逻辑回归模型，该模型的输出变量范围始终在 0 到1 之间。

逻辑回归模型的假设是： $h_\theta$ ( x ) = g( $\theta^T$ X ) 其中：X 代表特征向量 g 代表逻辑函数（logistic function）是一个常用的逻辑函数为 S 型函数（Sigmoid function）, 公式为：g(z) = $\frac{1}{1+ e^{-z}}$ 。

该函数的图像为：

合起来，我们得到逻辑回归模型的假设：

对模型的理解：g(z) = $\frac{1}{1+e^{-z}}$ 。

$h_\theta$ (x) 的作用是，对于给定的输入变量。根据秀安装的参数计算出书变量=1 的可能性（estimated probablity）即 $h_\theta$ (x) = P(y =1|x; $\theta$ )

例如，如果给定的 x ,通过已经确定的参数计算得出 $h_\theta$ (x) =0.6，则表示有70%的几率为正向类，相应地 y 为负向类的几率为 1 - 0.7 = 0.3。

2. 逻辑回归的判定边界

现在假设我们有一个模型：

并且参数 $\theta$ 是向量[-3 1 1]。则当-3 + $x_1$ + $x_2$ >= 0，即 $x_1$ + $x_2$ >= 3时，模型将预测 y = 1。我们可以绘制直线 $x_1$ + $x_2$ = 3,这条线便是我们模型的分界线，将预测为1的区域和预测为0的区域分隔开。

3.代价函数

现在有个问题就是我们应该如何确定参数 $\theta$ 呢？接下来将要介绍如何拟合逻辑回归模型的参数 $\theta$ 。

定义逻辑回归的代价函数：

J( $\theta$ ) = - $\frac{1}{m}\sum_{i=1}^m[y^{(i)}log(h_{\theta}(x^{(i)})) +(1-y^{(i)})log(1-h_\theta(x^{(i)}))]$

得到这样一个代价函数以后，我们便可以用梯度下降算法来求得能使代价函数最小的参数。算法为：

Repeat{ $\theta_j:=\theta_j - a\frac{1}{m}\sum_{i=1}^m(h_\theta(x^{(i)}) - y^{(i)})x{_j^{i}}$

(Simultaneously update all $\theta_j$ )

}

这里我就直接给出结果了，想了解推导过程的看官老爷们可以自行去查阅资料。

4.Python3实现逻辑回归

from math import exp
import numpy as np
import pandas as pd
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
import matplotlib.pyplot as plt

class LogisticReressionClassifier:
    def __init__(self, max_iter=5000, learning_rate=0.01):
        self.max_iter = max_iter
        self.learning_rate = learning_rate

    def sigmoid(self, x):
        return 1 / (1 + exp(-x))

    def data_matrix(self, X):
        data_mat = []
        for d in X:
            data_mat.append([1.0, *d])
        return data_mat

    def fit(self, X, y):
        # label = np.mat(y)
        data_mat = self.data_matrix(X)  # m*n
        self.weights = np.ones((len(data_mat[0]), 1), dtype=np.float32)
        for j in range(self.max_iter):
            for iter_ in range(len(self.weights)):
                error = 0
                for i in range(len(X)):
                    result = self.sigmoid(np.dot(data_mat[i], self.weights))
                    error += (result - y[i]) * data_mat[i][iter_]
                self.weights[iter_] = self.weights[iter_] - self.learning_rate * 1 / len(X) * error
        print('LogisticRegression Model(learning_rate={},max_iter={})'.format(
            self.learning_rate, self.max_iter))

    # def f(self, x):
    #     return -(self.weights[0] + self.weights[1] * x) / self.weights[2]

    def score(self, X_test, y_test):
        right = 0
        X_test = self.data_matrix(X_test)
        for x, y in zip(X_test, y_test):
            result = np.dot(x, self.weights)
            if (result > 0 and y == 1) or (result < 0 and y == 0):
                right += 1
        return right / len(X_test)


if __name__ == '__main__':

    # data
    def create_data():
        iris = load_iris()
        df = pd.DataFrame(iris.data, columns=iris.feature_names)
        df['label'] = iris.target
        df.columns = ['sepal length', 'sepal width', 'petal length', 'petal width', 'label']
        data = np.array(df.iloc[:100, [0, 1, -1]])
        # print(data)
        return data[:, :2], data[:, -1]

    X, y = create_data()
    X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3)
    lr_clf = LogisticReressionClassifier()
    lr_clf.fit(X_train, y_train)
    print(lr_clf.score(X_test, y_test))
    x_ponits = np.arange(4, 8)
    y_ = -(lr_clf.weights[1] * x_ponits + lr_clf.weights[0]) / lr_clf.weights[2]
    plt.plot(x_ponits, y_)

    # lr_clf.show_graph()
    plt.scatter(X[:50, 0], X[:50, 1], label='0')
    plt.scatter(X[50:, 0], X[50:, 1], label='1')
    plt.legend()
    plt.show()