阿里云天池课堂笔记(以二手车交易为例)

一.baseline

在数据科学和机器学习竞赛中,特别是像阿里云天池这样的平台上,baseline通常指的是一个基本的解决方案或模型,它为参赛者提供了一个起点或参考标准。Baseline的目的是为了帮助参赛者快速理解赛题、熟悉数据,并给出一个初步的预测或分类效果,以便参赛者可以在此基础上进行改进和优化。

二,数据导入:使用pandas等库读取训练集和测试集数据,并进行基本的数据清洗,如处理缺失值、异常值等。

数据读取:

用pandas读取数据

import pandas as pd 

  数据加载
data = pd.read_csv('used_car_train.csv')

数据探索:

查看数据的基本信息,包括数据类型、缺失值、异常值等。
使用描述性统计来了解数据分布情况。
print(data.head())
print(data.describe())
print(data.info())

  三.数据清洗

   缺失值处理:data.isnull().sum()  # 查看缺失值

                      1.删除(缺失值占比较高)

                      2.不处理(正对类似XGBoost等数模型)

                      3.差值补全:统计量(均值,中位数,众数)

                                           高位映射(感知压缩补全,矩阵补全)

                                            建模预测,多重插补

     异常值处理:1.通过线性箱(或3-Sigma)分析删除异常值

                      2.BOX-COX转换(处理有偏估计)

                      3.长尾截断

    数据转换:将非数值型数据(如类别数据)转换为模型可以处理的数值型数据,常用的方法有独热编码(One-Hot Encoding)、标签编码(Label Encoding)等。

四.数据预处理

归一化/标准化:将数值型数据转换为标准的范围,比如0到1之间,或者使数据具有零均值和单位方差。
数据分桶:将连续变量离散化,有助于模型的泛化能力。

五.特征工程

  • 包括标准数据无量纲化:化和归一化处理,使不同量纲的特征能够进行比较和计算。
  • 编码转换:对于分类特征,需要进行独热编码(One-Hot Encoding)或标签编码(Label Encoding)等处理。
  • 特征选择:通过相关性分析、特征重要性评估等方法,选择对预测结果有显著影响的特征

特征提取(示例:提取日期中的年份)
data['sale_year'] = pd.to_datetime(data['sale_date']).dt.year
 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值