之前遇到这样一段代码
import numpy as np
from sklearn import datasets
from sklearn.model_selection import train_test_split
import collections
digits = datasets.load_digits()
X = digits.data
# 1 使用copy(),深拷贝
y = digits.target.copy()
# 2 不使用copy(),浅拷贝
y = digits.target
y[digits.target==9] = 1
y[digits.target!=9] = 0
X_train,X_test,y_train,y_test = train_test_split(X,y,random_state=666)
print(collections.Counter(y_train))
输出结果为下:
# 使用copy()时的输出结果
Counter({0: 1212, 1: 135})
# 不使用copy()时的输出结果
Counter({0: 1347})
在不使用copy()时,python中默认的是浅拷贝,即两个变量都指向了同一个内存地址
# 那么在下面的代码段中 y 与 digits.target 都指向了一个地址(使用 X 指代)
y[digits.target==9] = 1 # 将 X 中为 9 的值都换成 1
y[digits.target!=9] = 0 # 此时 X 中所有的值已经没有 9 了,即所有的值都换成了 0
所以,在使用了copy()之后,输出的结果中还包含两类