机器学习-logistics算法

m0_63931079

已于 2023-12-04 21:35:44 修改

阅读量1.1k

点赞数 18

文章标签：机器学习算法人工智能

于 2023-12-04 21:32:40 首次发布

本文链接：https://blog.csdn.net/m0_63931079/article/details/134793219

版权

引言：

机器学习是现代科技领域的一个热门话题，广泛应用于各行各业。其中的一个重要算法是Logistic回归算法，它在分类问题中具有广泛的应用。

一.Logistic回归算法：

1.基本思想：

Logistic回归是一种用于解决分类问题的监督学习算法。与线性回归不同，Logistic回归输出的是一个概率值，用于表示样本属于某一类的可能性。它基于logistic函数，将输入特征的线性组合转换为一个在0到1之间的概率值。

2.原理

（1）Sigmoid函数

在Logistic回归中，使用Sigmoid函数来建立模型，并将输入映射到一个介于0和1之间的概率值。Sigmoid函数的公式为：

$h(z) = \frac{1}{{1 + e^{-z}}}$

其中，h(z)表示预测的概率，z表示输入的线性组合。

（2）损失函数

为了训练Logistic回归模型，需要定义一个损失函数来衡量预测结果与真实结果之间的差异。常用的损失函数是对数似然损失函数，其公式如下：

$j(\theta )=\frac{-1}{m*\sum \left [ y*\log \left ( h\left ( x \right ) \right ) +\left ( 1-y \right )*\log \left ( 1-h\left ( x \right ) \right )\right ]}$

其中，θ表示模型的参数，y表示真实类别标签。

（3）参数学习

为了最小化损失函数，使用梯度下降算法来更新模型的参数。通过迭代的方式，不断调整参数，直到达到损失函数的最小值。

3.公式

（1）假设函数

Logistic回归的假设函数可以表示为：

$h\theta \left ( x \right )=\frac{1}{1+e^{-\theta ^{T*X}}}$

其中，θ表示模型的参数，x表示输入的特征向量。

（2）梯度下降

梯度下降算法用于更新参数θ，使得损失函数最小化。公式：

$\theta j:=\theta j-\alpha *\left ( \frac{\delta J\left ( \theta \right )}{\delta \theta j} \right )$

其中，α表示学习率。

4. 应用领域:

1.信用风险评估：根据客户的财务状况和历史数据，预测客户的违约可能性。
2.垃圾邮件过滤：通过对邮件的文本特征进行分析，将垃圾邮件和正常邮件进行分类。
3.医学诊断：根据患者的症状和实验室数据，预测患者是否患有某种疾病。

二.代码实现：

（1）目的：

用Logistic回归模型根据身高、体重，预测性别。

数据集部分截图：

（2）代码：

import numpy as np
import matplotlib.pyplot as plt
#定义 Logistic 回归类
class LogisticRegression:
 def __init__(self, learning_rate=0.01, num_iterations=1000):
        self.learning_rate = learning_rate
        self.num_iterations = num_iterations
        self.weights = None
    
  def sigmoid(self, z):
        return 1 / (1 + np.exp(-z))
    
  def initialize_params(self, num_features):
        self.weights = np.zeros(num_features)
    
   def fit(self, X, y):
        num_samples, num_features = X.shape
        self.initialize_params(num_features)
        for _ in range(self.num_iterations):
            # 前向传播
            linear = np.dot(X, self.weights)
            y_pred = self.sigmoid(linear)
            
            # 梯度计算
            dw = (1 / num_samples) * np.dot(X.T, (y_pred - y))
            
            # 参数更新
            self.weights += self.learning_rate * dw 
    def predict(self, X):
        linear = np.dot(X, self.weights)
        y_pred = np.round(self.sigmoid(linear))
        return y_pred  
    def error_rate(self, X, y_true):
        y_pred = self.predict(X)
        incorrect = np.sum(y_pred != y_true)
        error_rate = incorrect / len(y_true)
        return error_rate
# 从TXT文件中读取数据集
def load_dataset(file_path):
    data = np.loadtxt(file_path, delimiter=',')
    X = data[:, :-1]  # 特征矩阵
    y = data[:, -1]   # 标签
    return X, y
# 加载数据集
file_path = r'D:\Desktop\dataset.txt'
X, y = load_dataset(file_path)
#Logistic 回归模型并训练
model = LogisticRegression(learning_rate=0.01, num_iterations=1000)
model.fit(X, y)
#预测结果
y_pred = model.predict(X)
#划分正负样本
X_pos = X[y == 1]
X_neg = X[y == 0]
#绘制散点图
plt.scatter(X_pos[:, 0], X_pos[:, 1], c='b', label='Positive')
plt.scatter(X_neg[:, 0], X_neg[:, 1], c='r', label='Negative')
#绘制分类线
x_line = np.array([X[:, 0].min() - 1, X[:, 0].max() + 1])
y_line = -(model.weights[0] * x_line + model.weights[1]) / model.weights[2]
plt.plot(x_line, y_line, c='black')
plt.xlabel('x1')
plt.ylabel('x2')
plt.legend()
plt.title('Logistic Regression')
plt.show()
#计算平均错误率
avg_error_rate = model.error_rate(X, y)
print("平均错误率:", avg_error_rate)