本文源自MOOC南京大学《用Python玩转数据》张莉老师讲解,如有侵权会及时删除。
在老师的讲解上加入了更多的注释,希望方便大家理解。
首先附上数据集
数据集:http://archive.ics.uci.edu/ml/datasets/Wine+Quality
下面开始放代码
首先调用库
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt
from sklearn.ensemble import RandomForestClassifier
from sklearn.model_selection import GridSearchCV
import warnings
warnings.filterwarnings('ignore')
导入数据
try:
wine = pd.read_csv('C:/Users/Desktop/winequality-red.csv',sep = ';')
except:
print('cannot find the file')#导入数据完毕
这里说明一点,如果数据集放在.spyder-py3文件夹下就可以直接调用,否则的话,需要写路径。如上,我就是写出了文件存放路径,可以通过右键文件查找路径。
下面看数据的基本情况,由于本数据集没有缺失值所以没有处理,但是查看了数据集的重复值并进行了删除。
print(wine.info())#看数据的基本情况,一共有1599条非空数据&