2020.08.22_Task1.2_基于逻辑斯特模型，实现分类预测(2)_利用逻辑回归模型对鸢尾花数据集进行分类预测,提供一个混淆矩阵图-CSDN博客

本文链接：https://blog.csdn.net/Kyre11/article/details/108167934

本文通过鸢尾花数据集，实战应用逻辑回归模型进行分类预测。首先介绍了数据集的结构和特点，然后详细阐述了如何划分训练集和测试集，训练逻辑回归模型，以及进行分类预测和模型评估。最后讨论了逻辑回归模型在二分类和多分类任务中的应用及其优缺点。

摘要由CSDN通过智能技术生成

上一次，采用了一个自己创造的数据作为数据集，展示了一个Python3.0版本的基于逻辑回归模型实现分类预测功能的代码块。
这回就实战看一下，应用非常著名的莺尾花数据集，通过逻辑回归实现分类预测功能。

流程还是一样了：

1.1 导入基本函数库+绘图指令库

import numpy as py;
import pandas as pd;

1.2 从库中导入鸢尾花数据集

from sklearn.datasets import load_iris;

2 将鸢尾花数据做处理，变成Python中的sklearn能处理的数据格式

data = load_iris;

像这种成熟的数据集，每次学习的时候，都应该好好看一下内部的组成部分，学习别人整理数据的方式，这样有助于你自己采集数据后整合成一个便于处理的数据集。

print(data);

可以看一下输出结果，这个以data命名的变量里面有什么：
data第一部分
这是data的数据部分
data第二部分
这里是data的属性部分。
可以看到这里面分为数值和属性两部分。

看这个数据集的时候，重点看几个地方：
（1）数据集的数值部分：

数据（data）
对应分类目标or标签的数字表达(target or class or label array)，0 代表第一类，1 代表第二类，2 代表第三类，以此类推。

（2）数据集的属性部分：

数据集的数量(number of instances) : 150（每一个分类目标有50个）
数据集的属性数量(number of attributes or features) : 4
属性信息（attribute or feature information）：这里面有四个
- sedal length（cm）
- sedal width (cm)
- petal length (cm)
- petal width (cm)
对应标签的名字（target or class or label name）:
- iris-setosa
- iris-versicolour
- iris-virginica
数据集的基本统计信息：看一下这个数据集中，每一个属性的最大值（Max），最小值（Min），平均值（Mean），标准差（SD）, 不同类别之间的相关系数（interclass correlation）（这个后面再了解）

	Max	Min	Mean	SD	interclass correlation
sedal length	4.3	7.9	5.84	0.83	0.7826
sedal width	2.0	4.4	3.85	0.43	-0.4194
pedal length	1.0	6.9	3.76	1.76	0.9490
pedal width	0.1	2.5	1.2	0.76	0.9565

了解这个数据集之后，在后面的使用中，一定要先了解，后记清楚里面的每一个名字和对应的数据，这样方便你写代码的时候调用：
例如，想调用数据的格式：变量名.属性名

data.data
data.target
data.features_names

等等

因此，调用这个iris dataset的一部分，作为一个新的数据集，放在pandas的dataframe格式中，名字叫iris_features,通过一些指令了解这个新的dataset的基本信息。

iris_target = data.target;
iris_featuresname =</