【机器学习】西瓜书习题3.4Python编程比较 10 折交叉验证法和留一法所估计出的对率回归的错误率

一个甜甜的大橙子

已于 2023-08-05 10:42:49 修改

阅读量1.5k

点赞数 4

分类专栏：大橙子学机器学习文章标签：机器学习 python 回归

于 2023-07-30 21:13:30 首次发布

本文链接：https://blog.csdn.net/chengyikang20/article/details/132011148

版权

大橙子学机器学习专栏收录该内容

9 篇文章 15 订阅

订阅专栏

文章通过Python的sklearn库对比了10折交叉验证和留一法在处理UCI数据集上的Logistic回归模型的错误率。首先，数据经过预处理，包括去除属性名称、转换为int类型、标准化。然后，分别用两种方法计算模型的准确度，结果显示，两种方法得到的平均准确度接近，分别为0.7674和0.7687。

摘要由CSDN通过智能技术生成

3.4 选择两个 UCI 数据集，比较 10 折交叉验证法和留一法所估计出的对率回归的错误率.

参考代码
结合自己的理解，添加注释。

数据集链接，下载后的数据在后缀名是data的文件中，使用记事本打开，本次解题需要去掉第一行属性名称，再保存为txt格式文件。

代码

导入相关库

import numpy as np
import pandas as pd
from sklearn import linear_model
from sklearn.model_selection import LeaveOneOut
from sklearn.model_selection import cross_val_score

读取数据，处理数据

data_path = r'Transfusion.txt'
# 读取数据，将数据强制转换为int型
data = np.loadtxt(data_path, delimiter=',').astype(int)
# 前4列(属性值)赋值给X，第5列赋值给y(label值)
X = data[:, :4]
y = data[:, 4]

m, n = X.shape
# normalization，标准化，将数据减去均值，再除以方差，将数据平均数变成0，标准差变成1
X = (X - X.mean(0)) / X.std(0)
# np.arange返回一个有终点和起点的固定步长的排列（可理解为一个等差数组）
index = np.arange(m)
# shuffle打乱index排列
np.random.shuffle(index)
# 将数据按照打乱后的index重新排列
X = X[index]
y = y[index]

计算十折交叉验证的平均准确度

# 使用sklarn 中自带的api先
# k-10 cross validation
lr = linear_model.LogisticRegression(C=2)  # C越大表示正则化程度越低
score = cross_val_score(lr, X, y, cv=10)
print(score.mean())

结果

0.7674234234234236

使用留一法验证的平均准确度

# 留一法leave-one-out
loo = LeaveOneOut()

accuracy = 0
for train, test in loo.split(X, y):
    lr_ = linear_model.LogisticRegression(C=2)
    X_train = X[train]
    X_test = X[test]
    y_train = y[train]
    y_test = y[test]
    lr_.fit(X_train, y_train)

    accuracy += lr_.score(X_test, y_test)

print(accuracy / m)