DAY 16 numpy数组的深入-CSDN博客

本文链接：https://blog.csdn.net/Era_mo/article/details/147720272

因为前天说了shap，这里涉及到数据形状尺寸问题，所以需要在这一节说清楚，后续的神经网络我们将要和他天天打交道。

知识点：

numpy数组的创建：简单创建、随机创建、遍历、运算
numpy数组的索引：一维、二维、三维
SHAP值的深入理解

作业：今日知识点比较多，好好记忆下

NumPy随机数生成方法对比

- 记忆技巧：

1. **看结尾**：

- "int" → 整数

- "n" → 正态(normal)

2. **看前缀**：

- 纯"random" → Python基础随机

- "np.random" → NumPy增强版

3. **功能差异**：

- `rand()`和`random()`都是均匀分布，但`rand()`能直接生成数组

- `randn()`生成的数据会有正有负，其他方法都是非负数

输入：

import numpy as np
a = np.array([2,4,6,8,10,12]) # 创建一个一维数组
b = np.array([[2,4,6],[8,10,12]]) # 创建一个二维数组
print(a)
print(b)

# 分清楚列表和数组的区别
print([7, 5, 3, 9])  # 输出: [7, 5, 3, 9]（逗号分隔）
print(np.array([7, 5, 3, 9]))  # 输出: [7 5 3 9]（空格分隔）
print(a.shape) # numpy中可以用shape来查看数组的形状

zeros = np.zeros((2, 3)) # 创建一个2行3列的全零矩阵
print(zeros) # 输出: [[0. 0. 0.] [0. 0. 0.]]

ones = np.ones((3,))  # 创建一个形状为(3,)的全1数组
print(ones) # 输出: [1. 1. 1.]

arr1d = np.arange(10)  # 数组: [0 1 2 3 4 5 6 7 8 9]
print(arr1d) # 输出: [0 1 2 3 4 5 6 7 8 9]

c = np.random.rand(2, 2)  # 创建一个2*2的随机数组c，区间为[0,1)
print(c)

import numpy as np
np.random.seed(42)  # 设置随机种子以确保结果可重复

# 生成10个语文成绩（正态分布，均值75，标准差10）
chinese_scores = np.random.normal(75, 10, 10).round(1)

# 找出最高分和最低分及其索引
max_score = np.max(chinese_scores)
max_index = np.argmax(chinese_scores)
min_score = np.min(chinese_scores)
min_index = np.argmin(chinese_scores)

print(f"所有成绩: {chinese_scores}")
print(f"最高分: {max_score} (第{max_index}个学生)")
print(f"最低分: {min_score} (第{min_index}个学生)")

sum = 0 # 初始化sum为0
for i in chinese_scores: # 遍历数组中的每个元素
    sum += i   
# 累加每个元素的值到sum中
print(f"所有成绩的和: {sum}") # 输出所有成绩的和
print(f"所有成绩的平均值: {sum/len(chinese_scores)}") # 输出所有成绩的平均值

#数组的运算
x = np.array([[1, 2, 3], [4, 5, 6]])  # 2D array requires double brackets
y = np.array([[7, 8, 9], [10, 11, 12]])  # Fixed array creation syntax

print(x + y) # 数组相加
print(x - y) # 数组相减

#数组的索引
arr1d = np.array([1, 2, 3, 4, 5]) # 创建一维数组
print(arr1d[0]) # 输出: 1 取出数组的第一个元素
print(arr1d[2:4]) # 输出: [3 4]（切片操作）,取出索引为2到3的元素（不包括索引4的元素，取左不取右）
print(arr1d[-1]) # # 取出数组的最后一个元素。-1表示倒数第一个元素。
print(arr1d[1:]) # 输出: [2 3 4 5]（切片操作），取出索引为1到末尾的元素。
print(arr1d[:-1]) # 输出: [1 2 3 4]（切片操作），取出索引为0到倒数第二个元素的元素。
print(arr1d[:]) # 输出: [1 2 3 4 5]（切片操作），取出所有元素。
print(arr1d[::2]) # 输出: [1 3 5]（切片操作），取出索引为0、2、4的元素。

# 数组:
arr2d = np.array([[1, 2, 3, 4],
                  [5, 6, 7, 8],
                  [9, 10, 11, 12],
                  [13, 14, 15, 16]]) # 创建二维数组
arr2d[1, :] # 输出: [5 6 7 8]（切片操作），取出第二行的所有元素。
arr2d[1] # 输出: [5 6 7 8]（切片操作），取出第二行的所有元素。
arr2d[:, 1] # 输出: [2 6 10 14]（切片操作），取出第二列的所有元素。
arr2d[1, 2] # 输出: 7（切片操作），取出第二行第三列的元素。
arr2d[[0, 2], :] # 输出: [[1 2 3 4] [9 10 11 12]]（切片操作），取出第一行和第三行的所有元素。
arr2d[:, [0, 2]] # 输出: [[1 3] [5 7] [9 11] [13 15]]（切片操作），取出第一列和第三列的所有元素。
arr2d[[0, 2], [0, 2]] # 输出: [1 11]（切片操作），取出第一行第一列和第三行第三列的元素。
arr2d[1, 1:3] # 输出: [6 7]（切片操作），取出第二行第二列到第三列的元素。
arr2d[1:3, 1:3] # 输出: [[6 7] [10 11]]（切片操作），取出第二行到第三行，第二列到第三列的元素。

print('\n')
arr3d = np.arange(3 * 4 * 5).reshape((3, 4, 5))
print(arr3d) # 创建一个3*4*5的三维数组，其中元素的值为0到11。
print(arr3d[0, 1, 2]) # 输出: 2（切片操作），取出第一层第二行第三列的元素。
print(arr3d[0, 1]) # 输出: [5 6 7 8 9]（切片操作），取出第一层第二行的所有元素。
print(arr3d[0]) # 输出: [[0 1 2 3 4] [5 6 7 8 9] [10 11 12 13 14] [15 16 17 18 19]]（切片操作），取出第一层的所有元素。
print(arr3d[0, 1, 2:4]) # 输出: [7 8]（切片操作），取出第一层第二行第三列到第四列的元素。

# 先运行之前预处理好的代码
import pandas as pd
import pandas as pd    #用于数据处理和分析，可处理表格数据。
import numpy as np     #用于数值计算，提供了高效的数组操作。
import matplotlib.pyplot as plt    #用于绘制各种类型的图表
import seaborn as sns   #基于matplotlib的高级绘图库，能绘制更美观的统计图形。
import warnings
warnings.filterwarnings("ignore")
 
 # 设置中文字体（解决中文显示问题）
plt.rcParams['font.sans-serif'] = ['SimHei']  # Windows系统常用黑体字体
plt.rcParams['axes.unicode_minus'] = False    # 正常显示负号
data = pd.read_csv('data.csv')    #读取数据


# 先筛选字符串变量 
discrete_features = data.select_dtypes(include=['object']).columns.tolist()
# Home Ownership 标签编码
home_ownership_mapping = {
    'Own Home': 1,
    'Rent': 2,
    'Have Mortgage': 3,
    'Home Mortgage': 4
}
data['Home Ownership'] = data['Home Ownership'].map(home_ownership_mapping)

# Years in current job 标签编码
years_in_job_mapping = {
    '< 1 year': 1,
    '1 year': 2,
    '2 years': 3,
    '3 years': 4,
    '4 years': 5,
    '5 years': 6,
    '6 years': 7,
    '7 years': 8,
    '8 years': 9,
    '9 years': 10,
    '10+ years': 11
}
data['Years in current job'] = data['Years in current job'].map(years_in_job_mapping)

# Purpose 独热编码，记得需要将bool类型转换为数值
data = pd.get_dummies(data, columns=['Purpose'])
data2 = pd.read_csv("data.csv") # 重新读取数据，用来做列名对比
list_final = [] # 新建一个空列表，用于存放独热编码后新增的特征名
for i in data.columns:
    if i not in data2.columns:
       list_final.append(i) # 这里打印出来的就是独热编码后的特征名
for i in list_final:
    data[i] = data[i].astype(int) # 这里的i就是独热编码后的特征名



# Term 0 - 1 映射
term_mapping = {
    'Short Term': 0,
    'Long Term': 1
}
data['Term'] = data['Term'].map(term_mapping)
data.rename(columns={'Term': 'Long Term'}, inplace=True) # 重命名列
continuous_features = data.select_dtypes(include=['int64', 'float64']).columns.tolist()  #把筛选出来的列名转换成列表
 
 # 连续特征用中位数补全
for feature in continuous_features:     
    mode_value = data[feature].mode()[0]            #获取该列的众数。
    data[feature].fillna(mode_value, inplace=True)          #用众数填充该列的缺失值，inplace=True表示直接在原数据上修改。

# 最开始也说了 很多调参函数自带交叉验证，甚至是必选的参数，你如果想要不交叉反而实现起来会麻烦很多
# 所以这里我们还是只划分一次数据集
from sklearn.model_selection import train_test_split
X = data.drop(['Credit Default'], axis=1)  # 特征，axis=1表示按列删除
y = data['Credit Default'] # 标签
# 按照8:2划分训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)  # 80%训练集，20%测试集

from sklearn.ensemble import RandomForestClassifier #随机森林分类器

from sklearn.metrics import accuracy_score, precision_score, recall_score, f1_score # 用于评估分类器性能的指标
from sklearn.metrics import classification_report, confusion_matrix #用于生成分类报告和混淆矩阵
import warnings #用于忽略警告信息
warnings.filterwarnings("ignore") # 忽略所有警告信息
# --- 1. 默认参数的随机森林 ---
# 评估基准模型，这里确实不需要验证集
print("--- 1. 默认参数随机森林 (训练集 -> 测试集) ---")
import time # 这里介绍一个新的库，time库，主要用于时间相关的操作，因为调参需要很长时间，记录下会帮助后人知道大概的时长
start_time = time.time() # 记录开始时间
rf_model = RandomForestClassifier(random_state=42)
rf_model.fit(X_train, y_train) # 在训练集上训练
rf_pred = rf_model.predict(X_test) # 在测试集上预测
end_time = time.time() # 记录结束时间

print(f"训练与预测耗时: {end_time - start_time:.4f} 秒")
print("\n默认随机森林 在测试集上的分类报告：")
print(classification_report(y_test, rf_pred))
print("默认随机森林 在测试集上的混淆矩阵：")
print(confusion_matrix(y_test, rf_pred))

import shap
import matplotlib.pyplot as plt
explainer = shap.TreeExplainer(rf_model) # 创建SHAP解释器对象
shap_values = explainer.shap_values(X_test) # 计算SHAP值
print(shap_values) # 打印SHAP值
print('\n')
print(shap_values[0,:,:])
print('\n')
print(shap_values.shape) # 打印SHAP值的形状
print('\n')
# 比如我想取出所有样本对第二个类别的贡献值
print(shap_values[1,:,:]) # 取出所有样本对第二个类别的贡献值

print('\n')
shap.summary_plot(shap_values, X_test, plot_type="bar") # 绘制SHAP值的条形图
plt.show() # 显示图形

输出：

[ 2  4  6  8 10 12]
[[ 2  4  6]
 [ 8 10 12]]
[7, 5, 3, 9]
[7 5 3 9]
(6,)
[[0. 0. 0.]
 [0. 0. 0.]]
[1. 1. 1.]
[0 1 2 3 4 5 6 7 8 9]
[[0.12985547 0.05432629]
 [0.9109544  0.88887468]]
所有成绩: [80.  73.6 81.5 90.2 72.7 72.7 90.8 82.7 70.3 80.4]
最高分: 90.8 (第6个学生)
最低分: 70.3 (第8个学生)
所有成绩的和: 794.9
所有成绩的平均值: 79.49
[[ 8 10 12]
 [14 16 18]]
[[-6 -6 -6]
 [-6 -6 -6]]
1
[3 4]
5
[2 3 4 5]
[1 2 3 4]
[1 2 3 4 5]
[1 3 5]


[[[ 0  1  2  3  4]
  [ 5  6  7  8  9]
  [10 11 12 13 14]
  [15 16 17 18 19]]

 [[20 21 22 23 24]
  [25 26 27 28 29]
  [30 31 32 33 34]
  [35 36 37 38 39]]

 [[40 41 42 43 44]
  [45 46 47 48 49]
  [50 51 52 53 54]
  [55 56 57 58 59]]]
7
[5 6 7 8 9]
[[ 0  1  2  3  4]
 [ 5  6  7  8  9]
 [10 11 12 13 14]
 [15 16 17 18 19]]
[7 8]
--- 1. 默认参数随机森林 (训练集 -> 测试集) ---
训练与预测耗时: 1.3899 秒

默认随机森林 在测试集上的分类报告：
              precision    recall  f1-score   support

           0       0.77      0.97      0.86      1059
           1       0.79      0.30      0.43       441

    accuracy                           0.77      1500
   macro avg       0.78      0.63      0.64      1500
weighted avg       0.77      0.77      0.73      1500

默认随机森林 在测试集上的混淆矩阵：
[[1023   36]
 [ 309  132]]
[[[ 9.07465700e-03 -9.07465700e-03]
  [ 7.21456498e-03 -7.21456498e-03]
  [ 4.55189444e-02 -4.55189444e-02]
  ...
  [ 7.12857198e-05 -7.12857198e-05]
  [ 4.67733508e-05 -4.67733508e-05]
  [ 1.61298135e-04 -1.61298135e-04]]

 [[-1.02606871e-02  1.02606871e-02]
  [ 1.85572634e-02 -1.85572634e-02]
  [-1.64992848e-02  1.64992848e-02]
  ...
  [ 2.00070852e-04 -2.00070852e-04]
  [ 5.11798841e-05 -5.11798841e-05]
  [ 1.02827796e-04 -1.02827796e-04]]

 [[ 3.21529115e-03 -3.21529115e-03]
  [ 1.28184070e-02 -1.28184070e-02]
  [ 1.02124914e-01 -1.02124914e-01]
  ...
  [ 1.73012306e-04 -1.73012306e-04]
  [ 4.74133256e-05 -4.74133256e-05]
  [ 1.26753231e-04 -1.26753231e-04]]

 ...

 [[ 1.15222741e-03 -1.15222741e-03]
  [-1.71843266e-02  1.71843266e-02]
  [-3.04994337e-02  3.04994337e-02]
  ...
  [ 1.44859329e-04 -1.44859329e-04]
  [ 1.80111014e-05 -1.80111014e-05]
  [ 1.30107512e-04 -1.30107512e-04]]

 [[ 1.29249120e-03 -1.29249120e-03]
  [ 5.66948438e-03 -5.66948438e-03]
  [ 2.49050264e-02 -2.49050264e-02]
  ...
  [ 2.50590715e-06 -2.50590715e-06]
  [ 4.68839113e-05 -4.68839113e-05]
  [ 1.15002997e-05 -1.15002997e-05]]

 [[-1.12640555e-03  1.12640555e-03]
  [ 1.42648293e-02 -1.42648293e-02]
  [ 4.74790019e-02 -4.74790019e-02]
  ...
  [ 6.19451775e-05 -6.19451775e-05]
  [ 3.30996384e-05 -3.30996384e-05]
  [ 4.45219920e-05 -4.45219920e-05]]]


[[ 9.07465700e-03 -9.07465700e-03]
 [ 7.21456498e-03 -7.21456498e-03]
 [ 4.55189444e-02 -4.55189444e-02]
 [ 3.47666501e-04 -3.47666501e-04]
 [ 2.57821493e-04 -2.57821493e-04]
 [ 2.00758099e-03 -2.00758099e-03]
 [-7.54175659e-03  7.54175659e-03]
 [-1.35324163e-03  1.35324163e-03]
 [-7.08191659e-04  7.08191659e-04]
 [-6.06829865e-03  6.06829865e-03]
 [-1.90501403e-03  1.90501403e-03]
 [ 1.44384291e-02 -1.44384291e-02]
 [-4.91452434e-02  4.91452434e-02]
 [ 6.28172371e-03 -6.28172371e-03]
 [-1.64613559e-02  1.64613559e-02]
 [-6.04576031e-01  6.04576031e-01]
 [ 4.58074016e-04 -4.58074016e-04]
 [-1.95125086e-05  1.95125086e-05]
 [-1.47478232e-05  1.47478232e-05]
 [ 6.27274034e-04 -6.27274034e-04]
 [-1.26003035e-05  1.26003035e-05]
 [-3.58303017e-04  3.58303017e-04]
 [ 7.89740644e-05 -7.89740644e-05]
 [ 2.08492876e-04 -2.08492876e-04]
 [ 5.52330472e-06 -5.52330472e-06]
 [ 4.11019037e-04 -4.11019037e-04]
 [ 7.15614011e-06 -7.15614011e-06]
 [ 1.07037925e-04 -1.07037925e-04]
 [ 7.12857198e-05 -7.12857198e-05]
 [ 4.67733508e-05 -4.67733508e-05]
 [ 1.61298135e-04 -1.61298135e-04]]


(1500, 31, 2)


[[-1.02606871e-02  1.02606871e-02]
 [ 1.85572634e-02 -1.85572634e-02]
 [-1.64992848e-02  1.64992848e-02]
 [ 5.06820187e-03 -5.06820187e-03]
 [ 8.03993942e-04 -8.03993942e-04]
 [ 6.23093534e-03 -6.23093534e-03]
 [ 1.03509794e-02 -1.03509794e-02]
 [ 3.30238833e-02 -3.30238833e-02]
 [ 1.46418512e-03 -1.46418512e-03]
 [ 6.79034083e-03 -6.79034083e-03]
 [ 2.50718949e-03 -2.50718949e-03]
 [ 3.48936324e-02 -3.48936324e-02]
 [-2.37893910e-02  2.37893910e-02]
 [-5.81337661e-03  5.81337661e-03]
 [ 2.37683779e-02 -2.37683779e-02]
 [ 3.69112306e-02 -3.69112306e-02]
 [ 1.10309789e-03 -1.10309789e-03]
 [ 3.26736973e-04 -3.26736973e-04]
 [ 1.75816944e-04 -1.75816944e-04]
 [-6.42806171e-04  6.42806171e-04]
 [ 8.65196736e-07 -8.65196736e-07]
 [ 5.66108030e-04 -5.66108030e-04]
 [ 9.91956164e-05 -9.91956164e-05]
 [ 4.18834246e-04 -4.18834246e-04]
 [ 7.12584973e-05 -7.12584973e-05]
 [ 2.16810255e-03 -2.16810255e-03]
 [ 5.72741710e-05 -5.72741710e-05]
 [ 4.53963511e-04 -4.53963511e-04]
 [ 2.00070852e-04 -2.00070852e-04]
 [ 5.11798841e-05 -5.11798841e-05]
 [ 1.02827796e-04 -1.02827796e-04]]