一、简介
逻辑回归(Logistic Regression)也称线性判别回归(Linear Discriminant Analysis Regression, LDA),是一种用于二分类问题的统计方法,简单来说就是通过一条直线(三维中是超平面)将两个不同的类分开,如图所示:
它通过使用Sigmoid函数将线性回归的输出映射到0和1之间,从而预测事件发生的概率。模型参数通常通过最大似然估计来确定,使用二元交叉熵损失作为损失函数,并通过优化算法如梯度下降来求解。逻辑回归可以应用正则化技术来防止过拟合,并通过多种评估指标来衡量模型性能。此外,它还可以扩展到多分类问题,广泛应用于医疗、金融、文本分类等领域。
二、代码实现
在平面上有一些散落的点,尝试用一条直线去分开它们。
首先,导入需要的包,随机生成一些点
import numpy as np
from sklearn.linear_model import LogisticRegression
import matplotlib.pyplot as plt
# 生成一些随机数据作为示例
np.random.seed(0)
X = np.random.rand(100, 2) # 100个点,每个点2个特征
y = np.random.randint(0, 2, 100) # 随机生成标签
# 将数据分为训练集和测试集
X_train, X_test, y_train, y_test = X[:80], X[80:], y[:80], y[80:]
创建逻辑回归模型,训练模型,并在测试集上进行预测。
# 创建逻辑回归模型
model = LogisticRegression(solver='liblinear') # 使用liblinear求解器
# 训练模型
model.fit(X_train, y_train)
# 预测测试集
y_pred = model.predict(X_test)
使用matplotlib库可视化了测试集上的点以及分类结果。
# 可视化结果
plt.scatter(X_test[:, 0], X_test[:, 1], c=y_test, cmap=plt.cm.coolwarm, edgecolors='k')
plt.scatter(X_test[y_pred == 1, 0], X_test[y_pred == 1, 1], color='red', marker='^', s=100)
plt.scatter(X_test[y_pred == 0, 0], X_test[y_pred == 0, 1], color='blue', marker='v', s=100)
plt.title('Scatter plot with Decision Boundary')
plt.xlabel('Feature 1')
plt.ylabel('Feature 2')
plt.show()