2020.08.22_Task1.2_基于逻辑斯特模型,实现分类预测(2)

上一次,采用了一个自己创造的数据作为数据集,展示了一个Python3.0版本的基于逻辑回归模型实现分类预测功能的代码块。
这回就实战看一下,应用非常著名的莺尾花数据集,通过逻辑回归实现分类预测功能。

流程还是一样了:

1.1 导入基本函数库+绘图指令库

import numpy as py;
import pandas as pd;

1.2 从库中导入鸢尾花数据集

from sklearn.datasets import load_iris;

2 将鸢尾花数据做处理,变成Python中的sklearn能处理的数据格式

data = load_iris;

像这种成熟的数据集,每次学习的时候,都应该好好看一下内部的组成部分,学习别人整理数据的方式,这样有助于你自己采集数据后整合成一个便于处理的数据集。

print(data);

可以看一下输出结果,这个以data命名的变量里面有什么:
data第一部分
这是data的数据部分
data第二部分
这里是data的属性部分。
可以看到这里面分为数值和属性两部分。

看这个数据集的时候,重点看几个地方:
(1)数据集的数值部分:

  • 数据(data
  • 对应分类目标or标签的数字表达(target or class or label array),0 代表第一类,1 代表第二类,2 代表第三类,以此类推。

(2)数据集的属性部分:

  • 数据集的数量(number of instances) : 150(每一个分类目标有50个)

  • 数据集的属性数量(number of attributes or features) : 4

  • 属性信息(attribute or feature information):这里面有四个

    • sedal length(cm)
    • sedal width (cm)
    • petal length (cm)
    • petal width (cm)
  • 对应标签的名字(target or class or label name):

    • iris-setosa
    • iris-versicolour
    • iris-virginica
  • 数据集的基本统计信息:看一下这个数据集中,每一个属性的最大值(Max),最小值(Min),平均值(Mean),标准差(SD), 不同类别之间的相关系数(interclass correlation)(这个后面再了解)

Max Min Mean SD interclass correlation
sedal length 4.3 7.9 5.84 0.83 0.7826
sedal width 2.0 4.4 3.85 0.43 -0.4194
pedal length 1.0 6.9 3.76 1.76 0.9490
pedal width 0.1 2.5 1.2 0.76 0.9565
  • class distribution(这个后面再了解)
  • 创造者及贡献者
  • 时间:1988年
  • 属性名字:features_names
  • 文件名字:这个数据集的名字,路径。

了解这个数据集之后,在后面的使用中,一定要先了解,后记清楚里面的每一个名字和对应的数据,这样方便你写代码的时候调用:
例如,想调用数据的格式:变量名.属性名

data.data
data.target
data.features_names

等等

因此,调用这个iris dataset的一部分,作为一个新的数据集,放在pandas的dataframe格式中,名字叫iris_features,通过一些指令了解这个新的dataset的基本信息。

ir
  • 1
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值