实验3-基于Scikit-Learn构建数据分析模型
文章目录
一、实验要求
使用加州大学机器学习库的酒数据集(https://archive-beta.ics.uci.edu/dataset/186/wine+quality)包含了1599种不同红酒的11种物理化学属性,每种酒的质量由真人打分,分数范围从0到10,0代表质量最差,10代表最好。
现在希望基于已有酒的物理化学属性来预测未知酒的质量,因此该问题可以看作一个回归问题。
训练数据包含的属性有:非挥发性酸、挥发性酸、柠檬酸、剩余糖分、氯化物、单体硫、总二氧化硫、密度、pH值、硫酸盐、酒精含量和质量。可以把质量看成目标变量,其他属性看成自变量进行学习。
二、实验任务
- 从winequality-red.csv文件中读入输入到一个Pandas对象中,并查看数据的基本情况
- 分析自变量与目标变量(质量)的相关性
- 通过散点图重点分析酒精含量与质量的相关性、挥发性酸与质量的相关性,可以得出什么结论?
- 将数据集按75%和25%的比例分成训练集和测试集,进行回归分析,并给出模型训练的性能评估
- 思考:该如果改进模型学习的效果?