第L3周:机器学习-逻辑回归

目标

  1. 逻辑回归适用于分类问题,主要用于解决二分类或多分类的问题。比如:用户购买某商品的可能性,某病人患有某种疾病的可能性等等;某个物品属于哪个类别等;
  2. 了解Sigmoid和Softmax的用法

具体实现
(一)环境
语言环境:Python 3.10
编 译 器: PyCharm
*框 架:*scikit-learn
**(二)具体步骤:
导入库

import numpy as np  
import pandas as pd  
from sklearn import datasets  
from sklearn.model_selection import train_test_split  
from sklearn.preprocessing import StandardScaler  
from sklearn.metrics import accuracy_score, classification_report, confusion_matrix
  1. 导入数据集:
# 导入数据集  
iris = datasets.load_iris()  
X = iris.data  
Y = iris.target  
print("X(iris.data):", X, X.shape)  
print("Y(iris.target):", Y, Y.shape)

image.png

2. 数据预处理:特征标准化:

# 数据预处理:特征标准化  
scaler = StandardScaler()  # 将数据缩放到一个均值为 0,标准差为 1 的正态分布  
X_scaled = scaler.fit_transform(X)
print("X_scaled:", X_scaled, X_scaled.shape)

image.png
image.png
3. ** 划分训练集和测试集**:

X_train, X_test, Y_train, Y_test = train_test_split(X_scaled,  
                                                    Y,  
                                                    test_size=0.2,  
                                                    random_state=42)

注:random_state参数设置成了42,会有什么效果?参考:train_test_split详解_train test split-CSDN博客
random_state:有三种结果,0或None:每次随机的数据集都不一样。整数(int):每次随机的数据集是一样的(固定的),一样的数据集就可以复现模型结果。如:把random_state设置成None,多执行几次代码,会发现准确率是不一样的。
4. 逻辑回归模型:

# 逻辑回归模型  
from sklearn.linear_model import LogisticRegression  
model = LogisticRegression(max_iter=200) # 默认迭代100次,这里设置成200次  
model.fit(X_train, Y_train)
  1. 预测结果:
# 预测结果  
y_pred = model.predict(X_test)  
print("predictions:", y_pred)

image.png
6. 评估预测结果:

# 评估预测结果  
accuracy = accuracy_score(Y_test, y_pred)  
print("模型准确率:", accuracy)

image.png

# 精确一点,准确率保留两位小数点,格式化输出一下  
print("模型准确率:%.2f" % accuracy)

image.png

# 打印分类报告  
print("打印分类报告:")  
print(classification_report(Y_test, y_pred, target_names=iris.target_names))

image.png
注:
1.precision:准确率,表示模型在预测为正例的样本中,实际为正例的比例
2.recall:召回率,表示模型在实际为正例的样本中,成功预测为正例的比例
3.f1-score:F1分数,综合精确度和召回率的指标,是精确度和召回率的调和均值
4.support:支持度,表示每个类别在实际数据中的样本数量

# 打印混淆矩阵  
print("混淆矩阵:")  
print(confusion_matrix(Y_test, y_pred))

image.png
在机器学习和数据科学领域,混淆矩阵(Confusion Matrix)是一种常用的性能度量工具,尤其在分类问题中。它提供了分类模型性能的可视化表示,帮助我们深入理解模型的分类效果。混淆矩阵以矩阵的形式展示了真实类别与模型预测类别之间的关系。混淆矩阵的每一行代表实际类别,每一列代表预测类别。通过混淆矩阵,我们可以清晰地看到每个类别的真正例(True Positive, TP)、假正例(False Positive, FP)、真反例(True Negative, TN)和假反例(False Negative, FN)的数量。参考:zhuanlan.zhihu.com/p/471327487,假设预测的结果(类别)是4,做个示意图分解一下:
image.png
image.png
image.png
image.png

  • 15
    点赞
  • 13
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值