使用深度神经网络完成对鸢尾花的分类

最新推荐文章于 2024-08-01 23:02:04 发布

简单随风

最新推荐文章于 2024-08-01 23:02:04 发布

阅读量1w

点赞数 11

分类专栏：机器学习文章标签：深度神经网络

本文链接：https://blog.csdn.net/lt326030434/article/details/84341791

版权

机器学习专栏收录该内容

24 篇文章 1 订阅

订阅专栏

1.首先导入鸢尾花的数据

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
dataset = pd.read_csv('Iris.csv')

在这里插入图片描述

2.使用seaborn对数据进行观察

import seaborn as sns
sns.pairplot(dataset.iloc[:, 1:6], hue='Species')

在这里插入图片描述

3.生成测试数据

将前4列与第5列分别抽离成np array

X = dataset.iloc[:, 1:5].values
y = dataset.iloc[:,5].values

此时X是这样
在这里插入图片描述
但是y还是字符串

所以我们要将y字符串数组转换成整数数组，在这里我们可以使用sklearn的LabelEncoder库

from sklearn.preprocessing import LabelEncoder
encoder = LabelEncoder()
y1 = encoder.fit_transform(y)

在这里插入图片描述
最后将y1转成神经网络需要的数组结构

Y = pd.get_dummies(y1).values

在这里插入图片描述

4.将训练数据与测试数据做分割

from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X, Y, test_size=0.2, random_state=0)

5.创建神经网络模型

使用Sequential创建神经网络模型
模型一共4层
损失函数使用‘categorical_crossentropy’（比较适用于3种以上的分类的情况）
指定 metrics=[‘accuracy’]，会在训练结束后计算训练数据在模型上的准确率

from keras.models import Sequential
from keras.layers import Dense
from keras.optimizers import Adam

model = Sequential()
model.add(Dense(10, input_shape=(4,), activation='relu'))
model.add(Dense(8, activation='relu'))
model.add(Dense(6, activation='relu'))
model.add(Dense(3, activation='softmax'))

model.compile(Adam(lr=0.04), 'categorical_crossentropy', metrics=['accuracy'])
model.summary()

6.训练模型

指定epochs=100，训练数据会在模型中训练100次

model.fit(X_train, y_train, epochs=100)

在这里插入图片描述

7.使用模型进行预测

y_pred = model.predict(X_test)

打印结果
在这里插入图片描述
浮点类型的数据不方便理解，所以使用np.argmax将数据转为整数数组

y_pred_class = np.argmax(y_pred, axis=1)  //其实就是记录每个数组中值最大的数的index

在这里插入图片描述
以上就是得到预测数据的全过程，当然最后我们还是需要一个更直观的方式来评估模型准确率

6.模型评估

from sklearn.metrics import classification_report
report = classification_report(y_test_class, y_pred_class)
print(report)

在这里插入图片描述
precision表示测试的数据是否都预测准确
recall表示需要查的数据是否都查到了
f1=2*(precision*recall)/(precision+recall)
support表示测试数据中属于各个分类的测试数据各有多少个
由此可观察到，此时测试数据在模型上的准确率达到了100%