二手车接个预测——task01赛题理解

最新推荐文章于 2022-07-06 18:04:54 发布

AIDD Learning

最新推荐文章于 2022-07-06 18:04:54 发布

阅读量109

点赞数 1

分类专栏：机器学习算法文章标签： python 机器学习

本文链接：https://blog.csdn.net/qq_39889473/article/details/115679376

版权

机器学习同时被 2 个专栏收录

16 篇文章 1 订阅

订阅专栏

算法

10 篇文章 0 订阅

订阅专栏

一、代码示例

#1、数据读取pandas
import pandas as pd
import numpy as np

path='./data/'
##1)载入训练集和测试集（一般测试集和训练集不是人为分的）
Train_data = pd.read_csv(path+'train.csv', sep=' ')
Test_data = pd.read_csv(path+'testA.csv', sep=' ')
print('Train data shape:',Train_data.shape)
print('TestA data shape:',Test_data.shape)

Train data shape: (150000, 31)
TestA data shape: (50000, 30)

Train_data.head()

	SaleID	name	regDate	model	brand	bodyType	gearbox	power	kilometer	...	v_5	v_6	v_7	v_8	v_9	v_10	v_11	v_12	v_13	v_14
0	0	736	20040402	30.0	6	1.0	0.0	60	12.5	...	0.235676	0.101988	0.129549	0.022816	0.097462	-2.881803	2.804097	-2.420821	0.795292	0.914762
1	1	2262	20030301	40.0	1	2.0	0.0	0	15.0	...	0.264777	0.121004	0.135731	0.026597	0.020582	-4.900482	2.096338	-1.030483	-1.722674	0.245522
2	2	14874	20040403	115.0	15	1.0	0.0	163	12.5	...	0.251410	0.114912	0.165147	0.062173	0.027075	-4.846749	1.803559	1.565330	-0.832687	-0.229963
3	3	71865	19960908	109.0	10	0.0	1.0	193	15.0	...	0.274293	0.110300	0.121964	0.033395	0.000000	-4.509599	1.285940	-0.501868	-2.438353	-0.478699
4	4	111080	20120103	110.0	5	1.0	0.0	68	5.0	...	0.228036	0.073205	0.091880	0.078819	0.121534	-1.896240	0.910783	0.931110	2.834518	1.923482

5 rows × 31 columns

2、分类指标评价计算示例

## accuracy0.5
import numpy as np
from sklearn.metrics import accuracy_score
y_pred = [ 1, 0, 1,1]
y_true = [0, 1, 1, 1]
print('ACC:',accuracy_score(y_true, y_pred))

ACC: 0.5

## Precision,Recall,F1-score
from sklearn import metrics
y_pred = [0, 1, 0, 0]
y_true = [0, 1, 0, 1]
print('Precision',metrics.precision_score(y_true, y_pred))
print('Recall',metrics.recall_score(y_true, y_pred))
print('F1-score:',metrics.f1_score(y_true, y_pred))

Precision 1.0
Recall 0.5
F1-score: 0.6666666666666666

1.精确率（precision）

根据图1-1可得其计算公式为：P = TP / (TP + FP)

召回率（recall）

召回率是表示实际为正样本中，预测为正样本的比例。可以看出，召回率考虑的是正样本的召回的比例．根据图1-1可得其计算公式为：P = TP / (TP + FN)

３.准确率（accuracy）

准确率表示所有的预测样本中，预测正确的比例．根据图1-1可得其计算公式为：A = (TP + TN) / (TP + FN + FP + TN)

## AUC
import numpy as np
from sklearn.metrics import roc_auc_score
y_true = np.array([0, 0, 1, 1])
y_scores = np.array([0.1, 0.4, 0.35, 0.8])
print('AUC socre:',roc_auc_score(y_true, y_scores))

AUC socre: 0.75

3、回归指标评价计算示例

# coding=utf-8
import numpy as np
from sklearn import metrics

# MAPE需要自己实现
def mape(y_true, y_pred):
    return np.mean(np.abs((y_pred - y_true) / y_true))

y_true = np.array([1.0, 5.0, 4.0, 3.0, 2.0, 5.0, -3.0])
y_pred = np.array([1.0, 4.5, 3.8, 3.2, 3.0, 4.8, -2.2])

# MSE
print('MSE:',metrics.mean_squared_error(y_true, y_pred))
# RMSE
print('RMSE:',np.sqrt(metrics.mean_squared_error(y_true, y_pred)))
# MAE
print('MAE:',metrics.mean_absolute_error(y_true, y_pred))
# MAPE
print('MAPE:',mape(y_true, y_pred))

MSE: 0.2871428571428571
RMSE: 0.5358571238146014
MAE: 0.4142857142857143
MAPE: 0.1461904761904762

## R2-score
from sklearn.metrics import r2_score
y_true = [3, -0.5, 2, 7]
y_pred = [2.5, 0.0, 2, 8]
print('R2-score:',r2_score(y_true, y_pred))

R2-score: 0.9486081370449679

二、总结

预测结果的好坏和特征构造有很大的关系。通过EDA寻求原始特征的直接的关系，最后构造满意的特征。
那么如何构造满意的特征呢？

AIDD Learning

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
2
评论
二手车接个预测——task01赛题理解

一、代码示例#1、数据读取pandasimport pandas as pdimport numpy as nppath='./data/'##1)载入训练集和测试集（一般测试集和训练集不是人为分的）Train_data = pd.read_csv(path+'train.csv', sep=' ')Test_data = pd.read_csv(path+'testA.csv', sep=' ')print('Train data shape:',Train_data.shape)pr
复制链接

扫一扫