数据集描述:
从各种不同的纵横角度获得的信号,每个样本有60个从不同地点接收到的仪器测量值(每个模式是一组60个数字,范围为0.0到1.0),最后一个标记岩石(R)和水雷(M)
任务是根据声纳返回的测量信息,进行分类,从而发现未爆炸的水雷。
data_url = "http://archive.ics.uci.edu/ml/machine-learning-databases/undocumented/connectionist-bench/sonar/sonar.all-data"
dataset = pd.read_csv(data_url,prefix='x') #shape(207, 61)
dataset.head()
dataset.tail()
summary = dataset.describe()
print(summary)
输出:(部分)
在这里可以观察不同分位数之间的差异。对于同意属性,如果存在某一个差异严重异于其他差异,则说明存在异常点。这就值得进一步分析数据。
手段①:平行坐标图 用于多个属性问题的可视化&#