算法实践第三天

最新推荐文章于 2023-06-14 22:31:21 发布

qq_27690673

最新推荐文章于 2023-06-14 22:31:21 发布

阅读量756

点赞数

分类专栏：算法实践数据分析模型构建特征工程

本文链接：https://blog.csdn.net/qq_27690673/article/details/84990834

版权

这篇博客记录了对data_all.csv数据进行模型评估的过程，包括xgboost、Lightgbm、GBDT、随机森林、决策树、线性SVM和逻辑回归7种模型。作者遇到了数据归一化和matplotlib使用的问题，通过解决这些问题，成功绘制了ROC曲线并得到了各模型的accuracy、precision、recall、F1-score和auc值。

摘要由CSDN通过智能技术生成

算法实践第三天

- 数据
- 任务：模型评估
- 代码实现
- - 导入包
  - 加载数据
  - 划分数据集
  - 定义得分和ROC曲线函数
  - 1.xgboost
  - - 结果
    - ROC曲线
  - 2.Lightgbm
  - - 结果
    - ROC曲线
  - 3.GBDT
  - - 结果
    - ROC曲线
  - 4.随机森林
  - 结果
  - - ROC曲线
  - 5.决策树
  - - 结果
    - ROC曲线
  - 6.线性SVM
  - - 结果
    - ROC曲线
  - 7.逻辑回归
  - - 结果
    - ROC曲线
- 遇到的问题：

数据

和day01中的数据一样data_all.csv

任务：模型评估

记录7个模型（在Task1的基础上）关于accuracy、precision，recall和F1-score、auc值的评分表格，并画出Roc曲线。

代码实现

导入包

import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn import metrics
import matplotlib.pyplot as plt

加载数据

file_path = 'G:\DatawhaleWeek01\Data\data_all.csv'
row_data = pd.read_csv(file_path)

划分数据集

X = row_data.drop(columns=['status']).values
y = row_data['status'].values
X_train,X_test,y_train,y_test = train_test_split(X, y, test_size=0.3,random_state=2018)

定义得分和ROC曲线函数

def get_scores(y_true, y_predict, y_predict_pro):
    accuracy_score = metrics.accuracy_score(y_true, y_predict)
    precision_score = metrics.precision_score(y_true, y_predict)
    recall_score = metrics.recall_score(y_true, y_predict)
    f1_score = metrics.f1_score(y_true, y_predict)
    auc_score = metrics.roc_auc_score(y_true, y_predict_pro)
    test_fprs, test_tprs, test_thresholds = metrics.roc_curve(y_test, y_predict_pro)
    plt.plot(test_fprs, test_tprs)
    plt