相关软件安装包及其版本说明如表所示。
软件 |
版本 |
安装包称 |
Oracle VM VirtualBox | 6.1.48 | |
ubuntu | 24.04 | ubuntu-24.04-desktop-amd64.iso |
hadoop | 3.3.5 | hadoop-3.3.5.tar.gz |
JDK | JDK1.8 |
1、数据集
来源:数据来源于阿里云天池:https://tianchi.aliyun.com/dataset/46
2、数据清洗
# 导入pandas库,用于数据处理
import pandas as pd
# 从csv文件中读取数据,命名为df
# 加载数据
df = pd.read_csv('taobao.csv')
# 打印数据框架的信息,包括列名、数据类型和非空值数量
# 检查数据信息,包括每列的非空值数量和数据类型
print(df.info())
# 计算每列的缺失值数量并打印
# 检查每列的缺失值数量
print(df.