交叉验证,要把80%的数据作为训练集,训练出model,20%的数据作为测试集,在训练集中把数据平均的分成若干份(一定要平均),比如分三份,第一次用1和2做训练,3做验证;第二次拿1 和3做测试,2做验证;第三次拿2和3做测试,1做验证;把三次平均值作为模型效果。
Train_test_split是切分模块,第2行代码的0.3,代表想拿30%的数据作为测试集,第二行代码的0代表对原来数据进行洗牌操作。
用下采样数据集进行训练,最后用原数据集在进行一遍测试;故进行了两次切分,whole是对整体数据集进行切分,undersampled是对下采样的900多个数据集进行切分;结果表明,原始数据集有284807条,进行测试的有85443条,下采样之后的总数据集有984条,进行测试的有296条,用于训练的有688条
模型评估标准,在岩本数据不平衡的情况下,精度会骗人的(比如有1000个数据,990人不癌症,10人癌症,用预测模型就不会预测出有人得癌症),引入召回率(recall),看10个患癌症的热里面能检测出来几个,若检测出来2个,召回率=2/10=0.2;recall是一种模型评估标准比精度靠谱。
kfold代表做交叉验证的时候做几倍的交叉验证,即把训练集平均分成几份,cross_val_score代表交叉验证评估的结果。Confusion_matrix代表混淆矩阵
逻辑回归做二分类实例(二)
最新推荐文章于 2023-01-10 13:37:38 发布