Roc 二分类曲线详解(小白也能看懂的笔记)
由于工作涉及到了ROC曲线,自己不是很懂,就在网上找了资料自学了一下。
明白每一行代码,甚至可以改代码的时候,应该就学得差不多了。
这次我选用了著名的iris鸢尾花数据集作为数据源。(R,python,学习经常用到)
iris包含花瓣长度、花瓣宽度、花萼长度、花萼宽度四个特征,
“setosa”,“versicolor”,"virginica"3个种类的鸢尾花,一共150个数据样本。
Sklearn.datasets机器学习包可以直接得到。大概长这样。
你期待的代码:
import numpy as np
#画图用的包
import matplotlib.pyplot as plt
# 支持向量机分类算法
from sklearn import svm,datasets
#roc 2分类曲线
from sklearn.metrics import roc_curve,auc
from sklearn.model_selection import train_test_split
# 下载iris数据集
iris = datasets.load_iris()
# 获取数据特征
X = iris.data
# 获取数据标签(0,1,2)分别代表不同的种类的鸢尾花
y = iris.target
# 由于数据是3分类的,我们需要转换为2分类
#变为2分类,我取了(0,1)
X, y = X[y != 2], y[y != 2]
#