根据数据集,我们需要使用多类分类算法,利用训练和测试数据对该数据集进行分析。如果我错了请纠正我?
对的。
请告诉我是否使用了此数据集的正确算法。
对。但是应用它们的一个更系统的方法是:首先使用PCA来直观地探索类的可分离性及其组件的相对信息性(您使用的是前两个)。然后,对原高维特征空间和PCA低维特征空间进行了逻辑回归。
#importing the libraries
import numpy as np
import matplotlib.pyplot as plt
import pandas as pd
import seaborn as sns
#importing the Dataset
dataset = pd.read_csv('winequality-red.csv', sep=';') # https://archive.ics.uci.edu/ml/machine-learning-databases/wine-quality/winequality-red.csv
sns.countplot(dataset['quality'])
观察:6类和高级不平衡(6可能是因为我们在您共享的页面中使用了不同的数据集)。
另外,正如我所看到的,我们有9个类,其中这个数据集将被划分。请让我知道如何在不同的类中相应地可视化和绘制数据。
# Feature Scaling
from sklearn.preprocessing import StandardScaler
sc = StandardScaler()
X = sc.fit_transform(X)
#Applying the PCA