一、数据读取
1.首先先在kaggle上下载数据,文件格式为.arff
也就是第三个文件
2.将数据处理为DataFrame形式
from scipy.io import arff
import pandas as pd
name = 'Pumpkin_Seeds_Dataset.arff'#我直接把文件复制到项目文件里了
data=arff.loadarff(name)
df = pd.DataFrame(data)
print(df.head())
print(list(df))
查看特征值
['Area', 'Perimeter', 'Major_Axis_Length', 'Minor_Axis_Length', 'Convex_Area', 'Equiv_Diameter', 'Eccentricity', 'Solidity', 'Extent', 'Roundness', 'Aspect_Ration', 'Compactness', 'Class']
[“面积”、“周长”、“主要长度”、“次要长度”、“凸面积”、“等值直径”、“偏心率”、“坚固度”