数据预处理
在数据预处理阶段,我们需要对数据进行清洗、转换和特征工程。以下是一些可能的步骤:
数据清洗:去除重复数据、缺失值过多的数据以及明显错误的数据。
数据转换:将身高、体重等连续型变量进行标准化或归一化处理,以便更好地进行模型训练。
特征工程:除了身高、体重和性别等基本信息外,还可以考虑添加一些衍生特征,如BMI(身体质量指数)等
df.isnull().sum()
数据清洗 (在这次的模型中只需要进行数据清洗)
df2= df.dropna().reset_index(drop=True)
df2.isnull().sum()
数据可视化
在构建尺码预测模型时,我们可以选择多种机器学习算法,如逻辑回归、决策树、随机森林、梯度提升机等。考虑到尺码预测是一个多分类问题(通常包括S、M、L、XL等多个尺码),我们可以选择支持多分类的算法,如随机森林或梯度提升机。
第一种方法
import matplotlib.pyplot as plt
plt.figure(figsize=(12,8))
plt.scatter(
df2['height'],
df2['weight'],
c=df2['size'].map({'XL':