数据挖掘学习笔记

最新推荐文章于 2024-01-09 16:03:07 发布

开饭

最新推荐文章于 2024-01-09 16:03:07 发布

阅读量188

点赞数 2

分类专栏：数据挖掘文章标签：数据挖掘

本文链接：https://blog.csdn.net/kaifan_/article/details/115640884

版权

系列文章目录

数据挖掘学习笔记01

二、使用步骤

1.数据的导入与观察

import pandas as pd
import numpy as np


## 1) 载入训练集和测试集；
path = 'D:\\tc.car\\data\\'
Train_data = pd.read_csv(path+'used_car_train_20200313.csv', sep=' ')
Test_data = pd.read_csv(path+'used_car_testA_20200313.csv', sep=' ')

print('Train data shape:',Train_data.shape)
print('TestA data shape:',Test_data.shape)
print(Test_data.head())  # 看前五行

2.预测指标

一般问题评价指标说明:

什么是评估指标：

评估指标即是我们对于一个模型效果的数值型量化。（有点类似与对于一个商品评价打分，而这是针对于模型效果和理想效果之间的一个打分）

一般来说分类和回归问题的评价指标有如下一些形式：

分类算法常见的评估指标如下：

对于二类分类器/分类算法，评价指标主要有accuracy， [Precision，Recall，F-score，Pr曲线]，ROC-AUC曲线。
对于多类分类器/分类算法，评价指标主要有accuracy， [宏平均和微平均，F-score]。
对于回归预测类常见的评估指标如下:

平均绝对误差（Mean Absolute Error，MAE），均方误差（Mean Squared Error，MSE），平均绝对百分误差（Mean Absolute Percentage Error，MAPE），均方根误差（Root Mean Squared Error）， R2（R-Square）
平均绝对误差平均绝对误差（Mean Absolute Error，MAE）:平均绝对误差，其能更好地反映预测值与真实值误差的实际情况，其计算公式如下：