基于机器学习的淡水质量预测

最新推荐文章于 2025-03-08 14:46:37 发布

想想机器会做什么

最新推荐文章于 2025-03-08 14:46:37 发布

阅读量1.5k

点赞数 16

文章标签：机器学习人工智能

本文链接：https://blog.csdn.net/qq_61061786/article/details/136422476

版权

本文介绍了如何使用英特尔工具包处理水质数据，包括数据预处理（one-hot编码、缺失值处理、特征选择），特征工程（对数变换和特征选择），并对比了Logistic回归和XGBoost模型在解决二分类问题上的表现，发现XGBoost在处理不平衡数据时效果更优。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

一、背景描述

1、背景描述

淡水是我们最重要和最稀缺的自然资源之一，仅占地球总水量的 3%。它几乎触及我们日常生活的方方面面，从饮用、游泳和沐浴到生产食物、电力和我们每天使用的产品。获得安全卫生的供水不仅对人类生活至关重要，而且对正在遭受干旱、污染和气温升高影响的周边生态系统的生存也至关重要。

通过参考英特尔的类似实现方案，预测淡水是否可以安全饮用和被依赖淡水的生态系统所使用，从而可以帮助全球水安全和环境可持续性发展。这里分类准确度和推理时间将作为评分的主要依据。

2、数据集：

你可以在此处下载数据集要求。

3、需求：

需要使用英特尔® ONEAPI AI分析工具包。

4、参考资料：

欢迎参考英特尔提供的类似实现方案。

二、数据处理

1、数据初步展示

该数据集

Data shape: (5956842, 24)

18个特征（除去index)，目标属性是Target,只有0和1两个值，因此此问题是二分类问题。经过探究后，得知18个特征中，

离散特征： ['Color', 'Source', 'Month', 'Day', 'Time of Day', 'Target']
连续特征： [ 'pH', 'Iron', 'Nitrate', 'Chloride', 'Lead', 'Zinc', 'Turbidity', 'Fluoride', 'Copper', 'Odor', 'Sulfate', 'Conductivity', 'Chlorine', 'Manganese', 'Total Dissolved Solids', 'Water Temperature', 'Air Temperature']

2、离散特征one-hot编码与数据的映射

# 使用独热编码处理 'Color' 和 'Source' 特征
one_hot_encoded_color = pd.get_dummies(data['Color'], prefix='Color')
one_hot_encoded_source = pd.get_dummies(data['Source'], prefix='Source')

# 将独热编码特征列与原始数据合并
data = pd.concat([data, one_hot_encoded_color, one_hot_encoded_source], axis=1)

# 删除原始的 'Color' 和 'Source' 特征列
data.drop(['Color', 'Source'], axis=1, inplace=True)
# 将月份映射至数字1~12
months = ["January", "February", "March&

最低0.47元/天解锁文章