目录
一、背景描述
1、背景描述
淡水是我们最重要和最稀缺的自然资源之一,仅占地球总水量的 3%。它几乎触及我们日常生活的方方面面,从饮用、游泳和沐浴到生产食物、电力和我们每天使用的产品。获得安全卫生的供水不仅对人类生活至关重要,而且对正在遭受干旱、污染和气温升高影响的周边生态系统的生存也至关重要。
通过参考英特尔的类似实现方案,预测淡水是否可以安全饮用和被依赖淡水的生态系统所使用,从而可以帮助全球水安全和环境可持续性发展。这里分类准确度和推理时间将作为评分的主要依据。
2、数据集:
你可以在此处下载数据集要求。
3、需求:
需要使用 英特尔® ONEAPI AI分析工具包。
4、参考资料:
欢迎参考英特尔提供的类似实现方案。
二、数据处理
1、数据初步展示
该数据集
Data shape: (5956842, 24)
18个特征(除去index),目标属性是Target,只有0和1两个值,因此此问题是二分类问题。经过探究后,得知18个特征中,
离散特征: ['Color', 'Source', 'Month', 'Day', 'Time of Day', 'Target'] 连续特征: [ 'pH', 'Iron', 'Nitrate', 'Chloride', 'Lead', 'Zinc', 'Turbidity', 'Fluoride', 'Copper', 'Odor', 'Sulfate', 'Conductivity', 'Chlorine', 'Manganese', 'Total Dissolved Solids', 'Water Temperature', 'Air Temperature']
2、离散特征one-hot编码与数据的映射
# 使用独热编码处理 'Color' 和 'Source' 特征
one_hot_encoded_color = pd.get_dummies(data['Color'], prefix='Color')
one_hot_encoded_source = pd.get_dummies(data['Source'], prefix='Source')
# 将独热编码特征列与原始数据合并
data = pd.concat([data, one_hot_encoded_color, one_hot_encoded_source], axis=1)
# 删除原始的 'Color' 和 'Source' 特征列
data.drop(['Color', 'Source'], axis=1, inplace=True)
# 将月份映射至数字1~12
months = ["January", "February", "March&