零基础入门数据挖掘-二手车交易价格预测(Day1数据分析)

本文介绍了从零开始进行数据挖掘的过程,针对二手车交易价格预测任务,详细解析了数据集的结构、评价标准,并进行了基础的数据探索,包括数据清洗、变量分析、相关性研究,揭示了关键特征如kilometers和某些匿名特征的重要性。
摘要由CSDN通过智能技术生成

开题语

参加比赛的第一件事不是下数据,跑模型,而是要先静下心来读题,磨刀不误砍柴工。

赛题数据

赛题以预测二手车的交易价格为任务,该数据来自某交易平台的二手车交易记录,总数据量超过40w,包含31列变量信息,其中15列为匿名变量。为了保证比赛的公平性,将会从中抽取15万条作为训练集,5万条作为测试集A,5万条作为测试集B,同时会对name、model、brand和regionCode等信息进行脱敏。

该赛题是阿里天池新人入门赛,以二手车交易为背景,数据中包含了二手车的车况、品牌、里程数等信息,并对部分信息进行脱敏,同时还提供了15个匿名特征。最终预测销售的价格price。

字段表

在这里插入图片描述

评价标准

评价标准为MAE(Mean Absolute Error)。
在这里插入图片描述
可以看出,评价就是以预测的价格和实际的label值的差值的绝对值的均值,这是一个比较直观、简单的评价方式,对于初学者来说没有那么劝退。

探索性数据分析

探索性数据分析(Exploratory Data Analysis,简称EDA),摘抄网上的一个中文解释,是指对已有的数据(特别是调查或观察得来的原始数据)在尽量少的先验假定下进行探索,通过作图、制表、方程拟合、计算特征量等手段探索数据的结构和规律的一种数据分析方法。特别是当我们对面对大数据时代到来的时候,各种杂乱的“脏数据”,往往不知所措,不知道从哪里开始了解目前拿到手上的数据时候,探索性数据分析就非常有效。

探索性数据分析的计划

1、Form hypotheses/develop investigation theme to explore形成假设,确定主题去探索
2、Wrangle data清理数据 3、Assess quality of data评价数据质量 4、Profile data数据报表
5、Explore each individual variable in the dataset探索分析每个变量 6、Assess the
relationship between each variable and the target探索每个自变量与因变量之间的关系
7、Assess interactions between variables探索每个自变量之间的相关性 8、Explore data
across many dimensions从不同的维度来分析数据

基础操作(jupyter notebook环境下)

读csv数据

import numpy as np
import pandas as pd
## 通过Pandas对于数据进行读取 (pandas是一个很友好的数据读取函数库)
Train_data = pd.read_csv(r'E:\second_car\used_car_train_20200313.csv', sep=' ')
TestA_data = pd.read_csv(r'E:\second_car\used_car_testA_20200313.csv', sep=' ')
## 输出数据的大小信息
print('Train data shape:',Train_data.shape)
print('TestA data shape:',TestA_data.shape)

输出数据的大小信息

Train_data.head()#默认显示五行,可在括号内进行调节

这里要注意的是,在windows系统当中读取文件路径可以使用,但是在python字符串中\有转义的含义,如\t可代表TAB,\n代表换行,所以我们需要采取一些方式使得\不被解读为转义字符。
解决方法:
在路径前面加r,即保持字符原始值的意思。
替换为双反斜杠
替换为正斜杠

浏览数据

Train_data.head()#默认显示五行,可在括号内进行调节

在这里插入图片描述

查看简要信息

Train_data.info() 

在这里插入图片描述
可以看到数据列名,缺失信息和数据类型。
这里注意到notRepairedDamage(汽车有尚未修复的损坏:是:0,否:1)的数据类型是object,发现有’-'的存在,这可以算是NaN的一种,所以可以将其替换为NaN。

Train_data
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值