聊聊机器学习之逻辑回归

最新推荐文章于 2023-02-26 21:10:57 发布

penguin.AAA

最新推荐文章于 2023-02-26 21:10:57 发布

阅读量260

点赞数

分类专栏：数据挖掘文章标签：数据挖掘机器学习 python 深度学习大数据

本文链接：https://blog.csdn.net/penguinlovepanda/article/details/106301329

版权

数据挖掘专栏收录该内容

2 篇文章 0 订阅

订阅专栏

一说到机器学习算法，相信很多人想到的第一个机器学习算法就是逻辑回归，那么什么是逻辑回归？怎么用逻辑回归这一算法呢？这篇文章就跟大家来聊聊这个话题。

1、什么是逻辑回归

用一句话来解释什么是逻辑回归：逻辑回归假设数据服从伯努利分布,通过极大化似然函数的方法，运用梯度下降来求解参数，来达到将数据二分类的目的。

这句话包含了五个重要信息点：

逻辑回归的假设：数据服从伯努利分布
逻辑回归的损失函数：极大似然函数
逻辑回归的求解方法：梯度下降
逻辑回归的目的：将数据二分类
逻辑回归的分类方式：划定一个阈值，大于这个阈值的是一类，小于这个阈值的是另外一类

1.1 逻辑回归的假设

伯努利分布又名两点分布或0-1分布，伯努利试验是只有两种可能结果的单次随机试验，即对于一个随机变量X而言：

伯努利试验都可以表达为“是或否”的问题。例如，抛一次硬币问题，抛中为正面的概率是p,抛中为负面的概率是1−p.

1.2 逻辑回归的损失函数：极大似然函数

损失函数就是预测结果与实际值的差值的各种方式求和，作用是衡量模型预测的好坏，损失函数模型越小，模型越好。

损失函数一般有四种，平方损失函数，对数损失函数，HingeLoss0-1损失函数，绝对值损失函数。将极大似然函数取对数以后等同于对数损失函数。在逻辑回归这个模型下，对数损失函数的训练求解参数的速度是比较快的。

极大似然函数是由极大似然得到的一种损失函数

极大似然估计的原理，用一张图片来说明，如下图所示：

总结起来，最大似然估计的目的就是：利用已知的样本结果，反推最有可能（最大概率）导致这样结果的参数值。

原理：极大似然估计是建立在极大似然原理的基础上的一个统计方法，是概率论在统计学中的应用。极大似然估计提供了一种给定观察数据来评估模型参数的方法，即：“模型已定，参数未知”。通过若干次试验，观察其结果，利用试验结果得到某个参数值能够使样本出现的概率为最大，则称为极大似然估计。

1.3 梯度下降

梯度下降包含：随机梯度下降，批梯度下降，small batch 梯度下降三种方式。

批梯度下降会获得全局最优解，缺点是在更新每个参数的时候需要遍历所有的数据，计算量会很大，并且会有很多的冗余计算，导致的结果是当数据量大的时候，每个参数的更新都会很慢。

随机梯度下降是以高方差频繁更新，优点是使得sgd会跳到新的和潜在更好的局部最优解，缺点是使得收敛到局部最优解的过程更加的复杂。

小批量梯度下降结合了sgd和batch gd的优点，每次更新的时候使用n个样本。减少了参数更新的次数，可以达到更加稳定收敛结果，一般在深度学习当中我们采用这种方法。

由于极大似然函数无法直接求解，我们一般通过对该函数进行梯度下降来不断逼急最优解，即求极大似然函数的最小值。

2 逻辑回归的应用案例(python sklearn库)


import xlrd
import matplotlib.pyplot as plt
import numpy as np
from sklearn import model_selection
from sklearn.linear_model import LogisticRegression
from sklearn import metrics
 
 
data = xlrd.open_workbook('gua.xlsx')
sheet = data.sheet_by_index(0)
Density = sheet.col_values(6)
Sugar = sheet.col_values(7)
Res = sheet.col_values(8)
 
# 读取原始数据
X = np.array([Density, Sugar])
# y的尺寸为(17,)
y = np.array(Res)
X = X.reshape(17,2)
 
# 绘制分类数据
f1 = plt.figure(1)
plt.title('watermelon_3a')
plt.xlabel('density')
plt.ylabel('ratio_sugar')
# 绘制散点图（x轴为密度，y轴为含糖率）
plt.scatter(X[y == 0,0], X[y == 0,1], marker = 'o', color = 'k', s=100, label = 'bad')
plt.scatter(X[y == 1,0], X[y == 1,1], marker = 'o', color = 'g', s=100, label = 'good')
plt.legend(loc = 'upper right')
plt.show()
# 从原始数据中选取一半数据进行训练，另一半数据进行测试
X_train, X_test, y_train, y_test = model_selection.train_test_split(X, y, test_size=0.5, random_state=0)
 
# 逻辑回归模型
log_model = LogisticRegression()
# 训练逻辑回归模型
log_model.fit(X_train, y_train)
 
# 预测y的值
y_pred = log_model.predict(X_test)
 
# 查看测试结果
print(metrics.confusion_matrix(y_test, y_pred))
print(metrics.classification_report(y_test, y_pred))