y_train_prob = clf.predict_proba(X_train)[:, 1]
这行代码让我疑惑,它究竟是什么意思呢?
print(clf.predict(x_test)) # 返回预测标签
就是预测值是哪些
print(clf.predict_proba(x_test)) # 返回预测属于某标签的概率
就是属于某类预测值的概率是多少
而对于[:,1]
是取二维数组中第二维的所有数据
举个例子:
-
y_train_prob = clf.predict_proba(X_train)[:, 1]
-
print("clf.predict_proba(X_train)")
-
print(clf.predict_proba(X_train))
-
print("clf.predict_proba(X_train)[:, 1]")
-
print(y_train_prob)
输出是:
含义是:预测X_rain[1. 0. 1. ... 0. 1. 0.]的标签是0的概率为0.94005474 ,为1的概率为0.05994526
个人思考:在2分类中,clf.predict_proba(X_train)[:, 1] 是取标签为1的概率,来画ROC曲线。其实笔者认为取【:,0】和取【:,1】是一样的,因为从上面一段话可以看出,0的概率+1的概率=1。都可以用来计算ROC曲线,只不过一个是正的一个是负的ROC。ROC只需要计算真正值和伪正值即可。笔者的具体实验结果对比如下:
![]() | ![]() |
取 [:,1] | 取 [:,0] |
如果与笔者思考有异,欢迎和笔者在留言区讨论 ~