一.baseline
在数据科学和机器学习竞赛中,特别是像阿里云天池这样的平台上,baseline通常指的是一个基本的解决方案或模型,它为参赛者提供了一个起点或参考标准。Baseline的目的是为了帮助参赛者快速理解赛题、熟悉数据,并给出一个初步的预测或分类效果,以便参赛者可以在此基础上进行改进和优化。
二,数据导入:使用pandas等库读取训练集和测试集数据,并进行基本的数据清洗,如处理缺失值、异常值等。
数据读取:
用pandas读取数据
import pandas as pd
数据加载
data = pd.read_csv('used_car_train.csv')
数据探索:
查看数据的基本信息,包括数据类型、缺失值、异常值等。
使用描述性统计来了解数据分布情况。
print(data.head())
print(data.describe())
print(data.info())
三.数据清洗
缺失值处理:data.isnull().sum() # 查看缺失值
1.删除(缺失值占比较高)
2.不处理(正对类似XGBoost等数模型)
3.差值补全:统计量(均值,中位数,众数)
高位映射(感知压缩补全,矩阵补全)
建模预测,多重插补
异常值处理:1.通过线性箱(或3-Sigma)分析删除异常值
2.BOX-COX转换(处理有偏估计)
3.长尾截断
数据转换:将非数值型数据(如类别数据)转换为模型可以处理的数值型数据,常用的方法有独热编码(One-Hot Encoding)、标签编码(Label Encoding)等。
四.数据预处理
归一化/标准化:将数值型数据转换为标准的范围,比如0到1之间,或者使数据具有零均值和单位方差。
数据分桶:将连续变量离散化,有助于模型的泛化能力。
五.特征工程
- 包括标准数据无量纲化:化和归一化处理,使不同量纲的特征能够进行比较和计算。
- 编码转换:对于分类特征,需要进行独热编码(One-Hot Encoding)或标签编码(Label Encoding)等处理。
- 特征选择:通过相关性分析、特征重要性评估等方法,选择对预测结果有显著影响的特征
特征提取(示例:提取日期中的年份)
data['sale_year'] = pd.to_datetime(data['sale_date']).dt.year