零基础入门数据挖掘学习笔记

零基础入门数据挖掘 - 二手车交易价格预测

1.载入数据科学及相关可视化库文件

下面展示一些 python库文件

import pandas as pd
import numpy as np
import warnings
warnings.filterwarnings('ignore')
import matplotlib.pyplot as plt
import seaborn as sns
import missingno as msno

2.导入数据

Train_data=pd.read_csv(path+'used_car_train_20200313.csv',sep=" ")
Test_data=pd.read_csv(path+'used_car_testA_20200313.csv',sep=" ")
print("Train data shape:",Train_data.shape)
print("TestA data shape:",Test_data.shape)

3.数据属性观察

Train_data.head().append(Train_data.tail())

在这里插入图片描述

4.判断缺失值和异常

Train_data.isnull().sum()

在这里插入图片描述

Train_data['notRepairedDamage'].value_counts()
Train_data['notRepairedDamage'].replace('-',np.nan,inplace=True)

在这里插入图片描述

5.了解预测值的分布

在这里插入图片描述

6.特征分类特征和数字特征

for cat_fea in categorical_features:
    print(cat_fea+"的特征分布如下:")
    print("{}特征有{}不同的值".format(cat_fea,Train_data[cat_fea].nunique()))
    print(Train_data[cat_fea].value_counts())

7.数字特征分析

for col in numeric_features:
    print('{:15}'.format(col),
         'skewness:{:05.2f}'.format(Train_data[col].skew()),
         '    ',
          'kurtosis:{:06.2f}'.format(Train_data[col].kurt())
         )

8.类型特征分析

在这里插入图片描述

9.生成数据报告

pfr = pandas_profiling.ProfileReport(Train_data)
pfr.to_file("./example.html")

后续继续添加

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值