NVIDIA cuPyNumeric：GPU加速的NumPy兼容库详解

扫地的小何尚

于 2025-03-23 13:39:03 发布

阅读量962

点赞数 19

文章标签： c++ 开发语言 NVIDIA CUDA GPU

本文链接：https://blog.csdn.net/kunhe0512/article/details/146455206

版权

NVIDIA cuPyNumeric：GPU加速的NumPy兼容库详解

引言

NVIDIA cuPyNumeric是一个高性能的Python库，它提供了与NumPy兼容的API，但利用NVIDIA GPU进行加速计算。cuPyNumeric旨在为数据科学家和研究人员提供一种简单的方式，通过最小的代码更改，将现有的NumPy代码迁移到GPU上运行，从而获得显著的性能提升。

cuPyNumeric是NVIDIA CUDA Python生态系统的重要组成部分，它与其他NVIDIA库（如cuDF、cuML和cuSignal）无缝集成，为科学计算、数据分析、机器学习和深度学习提供了强大的基础。

本文将详细介绍cuPyNumeric的安装部署、基本用法和高级应用案例，帮助读者快速上手并充分利用这一强大工具。
在这里插入图片描述

GTC 2025 中文在线解读｜ CUDA最新特性与未来 [WP72383]
NVIDIA GTC大会火热进行中，一波波重磅科技演讲让人应接不暇，3月24日，NVIDIA 企业开发者社区邀请Ken He、Yipeng Li两位技术专家，面向开发者，以中文深度拆解GTC2025四场重磅开发技术相关会议，直击AI行业应用痛点，破解前沿技术难题!

作为GPU计算领域的基石，CUDA通过其编程语言、编译器、运行时环境及核心库构建了完整的计算生态，驱动着人工智能、科学计算等前沿领域的创新发展。在本次在线解读活动中，将由CUDA架构师深度解析GPU计算生态的核心技术演进。带您了解今年CUDA平台即将推出的众多新功能，洞悉CUDA及GPU计算技术的未来发展方向。

时间：3月24日18:00-19:00
中文解读:Ken He / Developer community
链接：link: https://www.nvidia.cn/gtc-global/session-catalog/?tab.catalogallsessionstab=16566177511100015Kus&search=WP72383%3B%20WP72450%3B%20WP73739b%3B%20WP72784a%20#/session/1739861154177001cMJd=

安装和部署指南

系统要求

在安装cuPyNumeric之前，请确保您的系统满足以下要求：

硬件要求：
- NVIDIA GPU（Compute Capability 6.0或更高，推荐Pascal、Volta、Turing、Ampere或更新架构）
- 足够的GPU内存（建议至少4GB）
软件要求：
- CUDA Toolkit 11.2或更高版本
- Python 3.8或更高版本
- 支持的操作系统：Linux（Ubuntu 18.04+、CentOS 7+）、Windows 10或更高版本

使用Conda安装

使用Conda是安装cuPyNumeric最简单的方法，它会自动处理所有依赖项：

# 创建新的conda环境
conda create -n cupynumeric_env python=3.9
conda activate cupynumeric_env

# 从conda-forge安装cuPyNumeric
conda install -c conda-forge -c nvidia cupynumeric

对于特定版本的安装：

# 安装特定版本的cuPyNumeric
conda install -c conda-forge -c nvidia cupynumeric=23.10

使用Pip安装

如果您更喜欢使用pip，可以通过以下命令安装：

# 确保已安装CUDA Toolkit
# 安装cuPyNumeric
pip install cupynumeric

注意：通过pip安装时，您需要确保系统上已经正确安装了CUDA Toolkit。

使用Docker安装

NVIDIA提供了预配置的Docker镜像，包含了完整的cuPyNumeric环境：

# 拉取最新的cuPyNumeric Docker镜像
docker pull nvcr.io/nvidia/cupynumeric:23.10

# 运行Docker容器
docker run --gpus all -it --rm nvcr.io/nvidia/cupynumeric:23.10

验证安装

安装完成后，可以通过以下代码验证cuPyNumeric是否正确安装：

import cupynumeric as cnp

# 检查版本
print("cuPyNumeric版本:", cnp.__version__)

# 创建一个简单的数组并执行操作
x = cnp.array([1, 2, 3, 4, 5])
print("数组:", x)
print("数组平方:", x**2)

# 检查GPU是否可用
print("GPU可用:", cnp.is_available())

如果一切正常，您应该能够看到cuPyNumeric的版本信息、数组操作结果以及GPU可用状态。

基础使用示例

NumPy到cuPyNumeric的迁移

cuPyNumeric的设计理念是提供与NumPy几乎完全兼容的API，使得从NumPy迁移到cuPyNumeric变得非常简单。大多数情况下，只需要将导入语句从import numpy as np更改为import cupynumeric as cnp即可。

以下是一个简单的迁移示例：

# NumPy代码
import numpy as np
data = np.random.rand(1000, 1000)
result = np.dot(data, data.T)

# 迁移到cuPyNumeric
import cupynumeric as cnp
data = cnp.random.rand(1000, 1000)  # 数据直接在GPU上创建
result = cnp.dot(data, data.T)      # 计算在GPU上执行

cuPyNumeric与NumPy之间的数据转换：

import numpy as np
import cupynumeric as cnp

# NumPy数组转换为cuPyNumeric数组（数据从CPU复制到GPU）
np_array = np.array([1, 2, 3, 4, 5])
cnp_array = cnp.array(np_array)
print("cuPyNumeric数组:", cnp_array)

# cuPyNumeric数组转换为NumPy数组（数据从GPU复制到CPU）
np_array_back = np.array(cnp_array)
print("转回NumPy数组:", np_array_back)

数组创建和操作

cuPyNumeric提供了与NumPy相同的数组创建和操作函数：

import cupynumeric as cnp

# 创建数组
# 创建零数组
zeros = cnp.zeros((3, 4))
print("零数组:\n", zeros)

# 创建一数组
ones = cnp.ones((2, 3, 4))
print("一数组形状:", ones.shape)

# 创建特定范围的数组
arange = cnp.arange(10, 30, 2)
print("等差数组:", arange)

# 创建线性空间
linspace = cnp.linspace(0, 1, 5)
print("线性空间:", linspace)

# 创建随机数组
random_array = cnp.random.random((2, 3))
print("随机数组:\n", random_array)

# 数组操作
a = cnp.array([[1, 2], [3, 4]])
b = cnp.array([[5, 6], [7, 8]])

# 数组算术运算
print("a + b =\n", a + b)
print("a * b =\n", a * b)  # 元素级乘法
print("矩阵乘法 a @ b =\n", a @ b)  # 矩阵乘法

# 数组变形
c = cnp.arange(12)
print("原始数组:", c)
c_reshaped = c.reshape(3, 4)
print("重塑后的数组:\n", c_reshaped)

# 数组切片
print("切片 c_reshaped[1:3, 1:3] =\n", c_reshaped[1:3, 1:3])

# 数组转置
print("转置:\n", c_reshaped.T)

数学运算和线性代数

cuPyNumeric提供了丰富的数学函数和线性代数操作，所有这些操作都在GPU上执行，性能显著提升：

import cupynumeric as cnp
import time

# 基本数学函数
x = cnp.linspace(0, 2*cnp.pi, 100)
y_sin = cnp.sin(x)
y_cos = cnp.cos(x)
print("sin(π/2) =", cnp.sin(cnp.pi/2))
print("cos(π) =", cnp.cos(cnp.pi))

# 指数和对数
a = cnp.array([1, 2, 3])
print("e^a =", cnp.exp(a))
print("ln(a) =", cnp.log(a))
print("log10(a) =", cnp.log10(a))

# 线性代数操作
# 创建大矩阵进行性能测试
n = 2000
A = cnp.random.rand(n, n)
B = cnp.random.rand(n, n)

# 矩阵乘法性能测试
start_time = time.time()
C = A @ B
end_time = time.time()
print(f"GPU上{n}x{n}矩阵乘法耗时: {end_time - start_time:.4f}秒")

# 矩阵求逆
A_small = cnp.array([[1, 2], [3, 4]])
A_inv = cnp.linalg.inv(A_small)
print("A的逆矩阵:\n", A_inv)
print("验证 A @ A_inv =\n", A_small @ A_inv)  # 应接近单位矩阵

# 求解线性方程组 Ax = b
A = cnp.array([[3, 1], [1, 2]])
b = cnp.array([9, 8])
x = cnp.linalg.solve(A, b)
print("线性方程组的解:", x)
print("验证 A @ x =", A @ x)  # 应该等于b

# 特征值和特征向量
A = cnp.array([[4, -2], [1, 1]])
eigenvalues, eigenvectors = cnp.linalg.eig(A)
print("特征值:", eigenvalues)
print("特征向量:\n", eigenvectors)

# 奇异值分解(SVD)
A = cnp.array([[1, 2], [3, 4], [5, 6]])
U, S, Vh = cnp.linalg.svd(A)
print("奇异值:", S)

随机数生成

cuPyNumeric提供了与NumPy兼容的随机数生成功能，但计算在GPU上进行：

import cupynumeric as cnp

# 设置随机种子以获得可重复的结果
cnp.random.seed(42)

# 生成均匀分布的随机数
uniform = cnp.random.rand(3, 3)
print("均匀分布随机数:\n", uniform)

# 生成正态分布的随机数
normal = cnp.random.randn(3, 3)
print("正态分布随机数:\n", normal)

# 生成指定范围内的整数
integers = cnp.random.randint(0, 10, size=(3, 3))
print("随机整数:\n", integers)

# 生成特定概率分布的随机数
# 泊松分布
poisson = cnp.random.poisson(lam=5, size=(3, 3))
print("泊松分布随机数:\n", poisson)

# 二项分布
binomial = cnp.random.binomial(n=10, p=0.5, size=(3, 3))
print("二项分布随机数:\n", binomial)

# 随机排列
arr = cnp.arange(10)
cnp.random.shuffle(arr)
print("随机排列:", arr)

# 随机选择
sample = cnp.random.choice(arr, size=5, replace=False)
print("随机选择:", sample)

FFT变换示例

cuPyNumeric提供了高性能的FFT（快速傅里叶变换）实现，基于NVIDIA的cuFFT库：

import cupynumeric as cnp
import matplotlib.pyplot as plt
import time

# 创建一个包含两个频率成分的信号
N = 600  # 采样点数
T = 1.0 / 800.0  # 采样间隔
x = cnp.linspace(0.0, N*T, N)  # 时间点
y = cnp.sin(50.0 * 2.0*cnp.pi*x) + 0.5*cnp.sin(80.0 * 2.0*cnp.pi*x)  # 信号

# 使用cuPyNumeric计算FFT
start_time = time.time()
yf = cnp.fft.fft(y)
end_time = time.time()
print(f"cuPyNumeric FFT计算耗时: {end_time - start_time:.6f}秒")

# 计算频率
xf = cnp.fft.fftfreq(N, T)[:N//2]
yf_abs = 2.0/N * cnp.abs(yf[0:N//2])

# 将结果转回CPU以便绘图
xf_np = xf.get() if hasattr(xf, 'get') else cnp.asnumpy(xf)
yf_abs_np = yf_abs.get() if hasattr(yf_abs, 'get') else cnp.asnumpy(yf_abs)

# 绘制原始信号和频谱
# 注意：实际使用时需要matplotlib库
"""
plt.figure(figsize=(12, 6))
plt.subplot(2, 1, 1)
plt.plot(x.get(), y.get())
plt.title('原始信号')
plt.xlabel('时间 (s)')
plt.ylabel('振幅')

plt.subplot(2, 1, 2)
plt.plot(xf_np, yf_abs_np)
plt.title('频谱')
plt.xlabel('频率 (Hz)')
plt.ylabel('振幅')
plt.tight_layout()
plt.savefig('fft_example.png')
plt.close()
"""

# 逆FFT示例
y_ifft = cnp.fft.ifft(yf)
print("逆FFT与原始信号的最大误差:", cnp.max(cnp.abs(y - y_ifft)))

# 2D FFT示例
image_size = 512
# 创建一个包含两个空间频率的2D图像
x = cnp.linspace(0, 1, image_size)
y = cnp.linspace(0, 1, image_size)
X, Y = cnp.meshgrid(x, y)
image = cnp.sin(2*cnp.pi*X*10) + cnp.sin(2*cnp.pi*Y*20)

# 计算2D FFT
fft_2d = cnp.fft.fft2(image)
fft_2d_shifted = cnp.fft.fftshift(fft_2d)  # 将零频率分量移到中心
magnitude_spectrum = cnp.log(cnp.abs(fft_2d_shifted) + 1)  # 对数缩放以便可视化

print("2D FFT形状:", fft_2d.shape)

高级案例分析

案例1：K-Means聚类算法实现

本案例展示如何使用cuPyNumeric实现K-Means聚类算法，并与NumPy版本进行性能对比：

import cupynumeric as cnp
import numpy as np
import time
import matplotlib.pyplot as plt
from sklearn.datasets import make_blobs

# 生成模拟数据
def generate_data(n_samples=10000, n_features=2, centers=3, random_state=42):
    """
    生成聚类数据
    
    参数:
    n_samples: 样本数量
    n_features: 特征数量
    centers: 聚类中心数量
    random_state: 随机种子
    
    返回:
    X: 数据点
    y: 真实标签
    """
    X, y = make_blobs(n_samples=n_samples, n_features=n_features, 
                      centers=centers, random_state=random_state)
    return X, y

# NumPy实现的K-Means
def kmeans_numpy(X, n_clusters, max_iters=100, tol=1e-4):
    """
    使用NumPy实现K-Means聚类
    
    参数:
    X: 输入数据，形状为(n_samples, n_features)
    n_clusters: 聚类数量
    max_iters: 最大迭代次数
    tol: 收敛阈值
    
    返回:
    centroids: 聚类中心
    labels: 每个样本的聚类标签
    """
    # 随机初始化聚类中心
    n_samples, n_features = X.shape
    idx = np.random.choice(n_samples, n_clusters, replace=False)
    centroids = X[idx, :]
    
    # 迭代优化
    for _ in range(max_iters):
        # 计算每个样本到每个聚类中心的距离
        distances = np.zeros((n_samples, n_clusters))
        for k in range(n_clusters):
            distances[:, k] = np.sum((X - centroids[k])**2, axis=1)
        
        # 分配样本到最近的聚类中心
        labels = np.argmin(distances, axis=1)
        
        # 更新聚类中心
        new_centroids = np.zeros((n_clusters, n_features))
        for k in range(n_clusters):
            if np.sum(labels == k) > 0:
                new_centroids[k] = np.mean(X[labels == k], axis=0)
            else:
                new_centroids[k] = centroids[k]
        
        # 检查收敛性
        if np.sum((new_centroids - centroids)**2) < tol:
            break
            
        centroids = new_centroids
    
    return centroids, labels

# cuPyNumeric实现的K-Means
def kmeans_cupynumeric(X, n_clusters, max_iters=100, tol=1e-4):
    """
    使用cuPyNumeric实现K-Means聚类
    
    参数:
    X: 输入数据，形状为(n_samples, n_features)
    n_clusters: 聚类数量
    max_iters: 最大迭代次数
    tol: 收敛阈值
    
    返回:
    centroids: 聚类中心
    labels: 每个样本的聚类标签
    """
    # 随机初始化聚类中心
    n_samples, n_features = X.shape
    idx = cnp.random.choice(n_samples, n_clusters, replace=False)
    centroids = X[idx, :]
    
    # 迭代优化
    for _ in range(max_iters):
        # 计算每个样本到每个聚类中心的距离
        distances = cnp.zeros((n_samples, n_clusters))
        for k in range(n_clusters):
            distances[:, k] = cnp.sum((X - centroids[k])**2, axis=1)
        
        # 分配样本到最近的聚类中心
        labels = cnp.argmin(distances, axis=1)
        
        # 更新聚类中心
        new_centroids = cnp.zeros((n_clusters, n_features))
        for k in range(n_clusters):
            if cnp.sum(labels == k) > 0:
                new_centroids[k] = cnp.mean(X[labels == k], axis=0)
            else:
                new_centroids[k] = centroids[k]
        
        # 检查收敛性
        if cnp.sum((new_centroids - centroids)**2) < tol:
            break
            
        centroids = new_centroids
    
    return centroids, labels

# 性能对比测试
def performance_comparison():
    """比较NumPy和cuPyNumeric实现的K-Means性能"""
    # 生成大规模数据
    n_samples = 100000
    n_features = 10
    n_clusters = 5
    X_np, y_true = generate_data(n_samples, n_features, n_clusters)
    
    # NumPy版本
    start_time = time.time()
    centroids_np, labels_np = kmeans_numpy(X_np, n_clusters)
    np_time = time.time() - start_time
    print(f"NumPy K-Means耗时: {np_time:.4f}秒")
    
    # cuPyNumeric版本
    X_cnp = cnp.array(X_np)  # 转换为cuPyNumeric数组
    start_time = time.time()
    centroids_cnp, labels_cnp = kmeans_cupynumeric(X_cnp, n_clusters)
    cnp_time = time.time() - start_time
    print(f"cuPyNumeric K-Means耗时: {cnp_time:.4f}秒")
    
    # 计算加速比
    speedup = np_time / cnp_time
    print(f"加速比: {speedup:.2f}x")
    
    # 验证结果一致性
    # 注意：由于随机初始化，结果可能不完全相同，但聚类质量应该相近
    labels_cnp_np = cnp.asnumpy(labels_cnp) if hasattr(labels_cnp, 'get') else labels_cnp
    agreement = np.mean(labels_np == labels_cnp_np)
    print(f"标签一致性: {agreement:.2f}")
    
    return np_time, cnp_time

# 运行性能对比
# performance_comparison()

案例2：图像处理 - Sobel边缘检测

本案例展示如何使用cuPyNumeric实现Sobel边缘检测算法：

import cupynumeric as cnp
import numpy as np
import time
from PIL import Image
import matplotlib.pyplot as plt

def load_image(image_path):
    """
    加载图像并转换为灰度
    
    参数:
    image_path: 图像文件路径
    
    返回:
    灰度图像数组
    """
    # 使用PIL加载图像
    img = Image.open(image_path).convert('L')
    # 转换为NumPy数组
    return np.array(img, dtype=np.float32) / 255.0

def sobel_edge_detection_numpy(image):
    """
    使用NumPy实现Sobel边缘检测
    
    参数:
    image: 输入灰度图像
    
    返回:
    边缘强度图像
    """
    # 定义Sobel算子
    sobel_x = np.array([[-1, 0, 1], [-2, 0, 2], [-1, 0, 1]], dtype=np.float32)
    sobel_y = np.array([[-1, -2, -1], [0, 0, 0], [1, 2, 1]], dtype=np.float32)
    
    # 获取图像尺寸
    height, width = image.shape
    
    # 创建输出图像
    edge_x = np.zeros((height, width))
    edge_y = np.zeros((height, width))
    
    # 应用卷积
    for i in range(1, height-1):
        for j in range(1, width-1):
            # 提取3x3区域
            region = image[i-1:i+2, j-1:j+2]
            # 应用Sobel算子
            edge_x[i, j] = np.sum(region * sobel_x)
            edge_y[i, j] = np.sum(region * sobel_y)
    
    # 计算边缘强度
    edge_magnitude = np.sqrt(edge_x**2 + edge_y**2)
    
    # 归一化
    if np.max(edge_magnitude) > 0:
        edge_magnitude = edge_magnitude / np.max(edge_magnitude)
    
    return edge_magnitude

def sobel_edge_detection_cupynumeric(image):
    """
    使用cuPyNumeric实现Sobel边缘检测
    
    参数:
    image: 输入灰度图像
    
    返回:
    边缘强度图像
    """
    # 定义Sobel算子
    sobel_x = cnp.array([[-1, 0, 1], [-2, 0, 2], [-1, 0, 1]], dtype=cnp.float32)
    sobel_y = cnp.array([[-1, -2, -1], [0, 0, 0], [1, 2, 1]], dtype=cnp.float32)
    
    # 获取图像尺寸
    height, width = image.shape
    
    # 创建输出图像
    edge_x = cnp.zeros((height, width))
    edge_y = cnp.zeros((height, width))
    
    # 应用卷积
    for i in range(1, height-1):
        for j in range(1, width-1):
            # 提取3x3区域
            region = image[i-1:i+2, j-1:j+2]
            # 应用Sobel算子
            edge_x[i, j] = cnp.sum(region * sobel_x)
            edge_y[i, j] = cnp.sum(region * sobel_y)
    
    # 计算边缘强度
    edge_magnitude = cnp.sqrt(edge_x**2 + edge_y**2)
    
    # 归一化
    if cnp.max(edge_magnitude) > 0:
        edge_magnitude = edge_magnitude / cnp.max(edge_magnitude)
    
    return edge_magnitude

def sobel_edge_detection_optimized(image):
    """
    使用cuPyNumeric的优化版本实现Sobel边缘检测
    使用卷积操作而不是显式循环
    
    参数:
    image: 输入灰度图像
    
    返回:
    边缘强度图像
    """
    # 定义Sobel算子
    sobel_x = cnp.array([[-1, 0, 1], [-2, 0, 2], [-1, 0, 1]], dtype=cnp.float32)
    sobel_y = cnp.array([[-1, -2, -1], [0, 0, 0], [1, 2, 1]], dtype=cnp.float32)
    
    # 使用卷积函数
    from scipy import signal
    # 注意：这里使用scipy的卷积函数，实际上cuPyNumeric可以与cuSignal集成以获得更好的性能
    edge_x = signal.convolve2d(image, sobel_x, mode='same', boundary='symm')
    edge_y = signal.convolve2d(image, sobel_y, mode='same', boundary='symm')
    
    # 计算边缘强度
    edge_magnitude = cnp.sqrt(edge_x**2 + edge_y**2)
    
    # 归一化
    if cnp.max(edge_magnitude) > 0:
        edge_magnitude = edge_magnitude / cnp.max(edge_magnitude)
    
    return edge_magnitude

def compare_edge_detection_performance(image_path):
    """
    比较NumPy和cuPyNumeric实现的边缘检测性能
    
    参数:
    image_path: 图像文件路径
    """
    # 加载图像
    image_np = load_image(image_path)
    
    # NumPy版本
    start_time = time.time()
    edges_np = sobel_edge_detection_numpy(image_np)
    np_time = time.time() - start_time
    print(f"NumPy Sobel边缘检测耗时: {np_time:.4f}秒")
    
    # cuPyNumeric版本
    image_cnp = cnp.array(image_np)
    start_time = time.time()
    edges_cnp = sobel_edge_detection_cupynumeric(image_cnp)
    cnp_time = time.time() - start_time
    print(f"cuPyNumeric Sobel边缘检测耗时: {cnp_time:.4f}秒")
    
    # 优化版本
    start_time = time.time()
    edges_opt = sobel_edge_detection_optimized(image_cnp)
    opt_time = time.time() - start_time
    print(f"优化的cuPyNumeric Sobel边缘检测耗时: {opt_time:.4f}秒")
    
    # 计算加速比
    speedup = np_time / cnp_time
    opt_speedup = np_time / opt_time
    print(f"基本加速比: {speedup:.2f}x")
    print(f"优化加速比: {opt_speedup:.2f}x")
    
    # 将结果转回CPU以便可视化
    edges_cnp_np = cnp.asnumpy(edges_cnp) if hasattr(edges_cnp, 'get') else edges_cnp
    edges_opt_np = cnp.asnumpy(edges_opt) if hasattr(edges_opt, 'get') else edges_opt
    
    # 可视化结果
    """
    plt.figure(figsize=(15, 10))
    
    plt.subplot(2, 2, 1)
    plt.imshow(image_np, cmap='gray')
    plt.title('原始图像')
    plt.axis('off')
    
    plt.subplot(2, 2, 2)
    plt.imshow(edges_np, cmap='gray')
    plt.title('NumPy Sobel边缘检测')
    plt.axis('off')
    
    plt.subplot(2, 2, 3)
    plt.imshow(edges_cnp_np, cmap='gray')
    plt.title('cuPyNumeric Sobel边缘检测')
    plt.axis('off')
    
    plt.subplot(2, 2, 4)
    plt.imshow(edges_opt_np, cmap='gray')
    plt.title('优化的cuPyNumeric Sobel边缘检测')
    plt.axis('off')
    
    plt.tight_layout()
    plt.savefig('edge_detection_comparison.png')
    plt.close()
    """
    
    return np_time, cnp_time, opt_time

# 示例调用
# compare_edge_detection_performance('path_to_image.jpg')

案例3：金融分析 - Black-Scholes期权定价模型

本案例展示如何使用cuPyNumeric实现Black-Scholes期权定价模型，并进行大规模计算：

import cupynumeric as cnp
import numpy as np
import time

def black_scholes_numpy(S, K, T, r, sigma, option_type='call'):
    """
    使用NumPy实现Black-Scholes期权定价模型
    
    参数:
    S: 标的资产价格
    K: 期权行权价
    T: 到期时间（年）
    r: 无风险利率
    sigma: 波动率
    option_type: 期权类型，'call'或'put'
    
    返回:
    期权价格
    """
    # 计算d1和d2
    d1 = (np.log(S / K) + (r + 0.5 * sigma**2) * T) / (sigma * np.sqrt(T))
    d2 = d1 - sigma * np.sqrt(T)
    
    # 计算标准正态累积分布函数
    from scipy.stats import norm
    N_d1 = norm.cdf(d1)
    N_d2 = norm.cdf(d2)
    
    # 计算期权价格
    if option_type == 'call':
        price = S * N_d1 - K * np.exp(-r * T) * N_d2
    else:  # put
        price = K * np.exp(-r * T) * norm.cdf(-d2) - S * norm.cdf(-d1)
    
    return price

def black_scholes_cupynumeric(S, K, T, r, sigma, option_type='call'):
    """
    使用cuPyNumeric实现Black-Scholes期权定价模型
    
    参数:
    S: 标的资产价格
    K: 期权行权价
    T: 到期时间（年）
    r: 无风险利率
    sigma: 波动率
    option_type: 期权类型，'call'或'put'
    
    返回:
    期权价格
    """
    # 计算d1和d2
    d1 = (cnp.log(S / K) + (r + 0.5 * sigma**2) * T) / (sigma * cnp.sqrt(T))
    d2 = d1 - sigma * cnp.sqrt(T)
    
    # 计算标准正态累积分布函数
    # 注意：cuPyNumeric没有直接提供norm.cdf，我们使用近似计算
    def norm_cdf(x):
        # 使用近似计算标准正态累积分布函数
        neg = x < 0
        pos = ~neg
        result = cnp.zeros_like(x)
        
        # 对于x < 0，使用1 - Φ(-x)
        z = cnp.abs(x)
        
        # 使用多项式近似
        # 参考: Abramowitz and Stegun approximation
        a1 = 0.254829592
        a2 = -0.284496736
        a3 = 1.421413741
        a4 = -1.453152027
        a5 = 1.061405429
        p = 0.3275911
        
        t = 1.0 / (1.0 + p * z)
        y = 1.0 - (((((a5 * t + a4) * t) + a3) * t + a2) * t + a1) * t * cnp.exp(-z * z / 2.0) / cnp.sqrt(2.0 * cnp.pi)
        
        result[pos] = y[pos]
        result[neg] = 1.0 - y[neg]
        
        return result
    
    N_d1 = norm_cdf(d1)
    N_d2 = norm_cdf(d2)
    
    # 计算期权价格
    if option_type == 'call':
        price = S * N_d1 - K * cnp.exp(-r * T) * N_d2
    else:  # put
        price = K * cnp.exp(-r * T) * (1 - N_d2) - S * (1 - N_d1)
    
    return price

def monte_carlo_option_pricing_numpy(S0, K, T, r, sigma, num_simulations, option_type='call'):
    """
    使用NumPy实现蒙特卡洛期权定价
    
    参数:
    S0: 初始股票价格
    K: 期权行权价
    T: 到期时间（年）
    r: 无风险利率
    sigma: 波动率
    num_simulations: 模拟次数
    option_type: 期权类型，'call'或'put'
    
    返回:
    期权价格
    """
    # 生成随机数
    np.random.seed(42)
    z = np.random.standard_normal(num_simulations)
    
    # 模拟到期时的股票价格
    ST = S0 * np.exp((r - 0.5 * sigma**2) * T + sigma * np.sqrt(T) * z)
    
    # 计算期权收益
    if option_type == 'call':
        payoff = np.maximum(ST - K, 0)
    else:  # put
        payoff = np.maximum(K - ST, 0)
    
    # 计算期权价格（现值）
    price = np.exp(-r * T) * np.mean(payoff)
    
    return price

def monte_carlo_option_pricing_cupynumeric(S0, K, T, r, sigma, num_simulations, option_type='call'):
    """
    使用cuPyNumeric实现蒙特卡洛期权定价
    
    参数:
    S0: 初始股票价格
    K: 期权行权价
    T: 到期时间（年）
    r: 无风险利率
    sigma: 波动率
    num_simulations: 模拟次数
    option_type: 期权类型，'call'或'put'
    
    返回:
    期权价格
    """
    # 生成随机数
    cnp.random.seed(42)
    z = cnp.random.standard_normal(num_simulations)
    
    # 模拟到期时的股票价格
    ST = S0 * cnp.exp((r - 0.5 * sigma**2) * T + sigma * cnp.sqrt(T) * z)
    
    # 计算期权收益
    if option_type == 'call':
        payoff = cnp.maximum(ST - K, 0)
    else:  # put
        payoff = cnp.maximum(K - ST, 0)
    
    # 计算期权价格（现值）
    price = cnp.exp(-r * T) * cnp.mean(payoff)
    
    return price

def compare_option_pricing_performance():
    """比较NumPy和cuPyNumeric实现的期权定价性能"""
    # 设置参数
    S0 = 100.0  # 初始股票价格
    K = 100.0   # 期权行权价
    T = 1.0     # 到期时间（年）
    r = 0.05    # 无风险利率
    sigma = 0.2 # 波动率
    
    # Black-Scholes模型
    # 创建大量期权进行批量定价
    num_options = 1000000
    S_array = np.random.normal(S0, 10, num_options)
    K_array = np.random.normal(K, 10, num_options)
    
    # NumPy版本
    start_time = time.time()
    prices_np = black_scholes_numpy(S_array, K_array, T, r, sigma)
    np_time = time.time() - start_time
    print(f"NumPy Black-Scholes ({num_options}个期权)耗时: {np_time:.4f}秒")
    
    # cuPyNumeric版本
    S_array_cnp = cnp.array(S_array)
    K_array_cnp = cnp.array(K_array)
    start_time = time.time()
    prices_cnp = black_scholes_cupynumeric(S_array_cnp, K_array_cnp, T, r, sigma)
    cnp_time = time.time() - start_time
    print(f"cuPyNumeric Black-Scholes ({num_options}个期权)耗时: {cnp_time:.4f}秒")
    
    # 计算加速比
    bs_speedup = np_time / cnp_time
    print(f"Black-Scholes加速比: {bs_speedup:.2f}x")
    
    # 蒙特卡洛模拟
    num_simulations = 10000000
    
    # NumPy版本
    start_time = time.time()
    mc_price_np = monte_carlo_option_pricing_numpy(S0, K, T, r, sigma, num_simulations)
    np_mc_time = time.time() - start_time
    print(f"NumPy蒙特卡洛({num_simulations}次模拟)耗时: {np_mc_time:.4f}秒")
    
    # cuPyNumeric版本
    start_time = time.time()
    mc_price_cnp = monte_carlo_option_pricing_cupynumeric(S0, K, T, r, sigma, num_simulations)
    cnp_mc_time = time.time() - start_time
    print(f"cuPyNumeric蒙特卡洛({num_simulations}次模拟)耗时: {cnp_mc_time:.4f}秒")
    
    # 计算加速比
    mc_speedup = np_mc_time / cnp_mc_time
    print(f"蒙特卡洛加速比: {mc_speedup:.2f}x")
    
    # 验证结果
    mc_price_cnp_np = cnp.asnumpy(mc_price_cnp) if hasattr(mc_price_cnp, 'get') else mc_price_cnp
    print(f"NumPy蒙特卡洛价格: {mc_price_np:.4f}")
    print(f"cuPyNumeric蒙特卡洛价格: {mc_price_cnp_np:.4f}")
    
    return np_time, cnp_time, np_mc_time, cnp_mc_time

# 运行性能对比
# compare_option_pricing_performance()

案例4：性能对比分析

本案例对比cuPyNumeric与NumPy在各种常见操作上的性能差异：

import cupynumeric as cnp
import numpy as np
import time
import matplotlib.pyplot as plt

def benchmark_array_creation(sizes):
    """
    对比数组创建性能
    
    参数:
    sizes: 数组大小列表
    
    返回:
    numpy_times, cupynumeric_times: 各大小下的性能数据
    """
    numpy_times = []
    cupynumeric_times = []
    
    for size in sizes:
        # NumPy
        start_time = time.time()
        np.random.rand(size, size)
        np_time = time.time() - start_time
        numpy_times.append(np_time)
        
        # cuPyNumeric
        start_time = time.time()
        cnp.random.rand(size, size)
        cnp_time = time.time() - start_time
        cupynumeric_times.append(cnp_time)
        
        print(f"数组大小: {size}x{size}")
        print(f"  NumPy: {np_time:.6f}秒")
        print(f"  cuPyNumeric: {cnp_time:.6f}秒")
        print(f"  加速比: {np_time/cnp_time:.2f}x")
    
    return numpy_times, cupynumeric_times

def benchmark_matrix_operations(sizes):
    """
    对比矩阵运算性能
    
    参数:
    sizes: 矩阵大小列表
    
    返回:
    numpy_times, cupynumeric_times: 各大小下的性能数据
    """
    numpy_times = []
    cupynumeric_times = []
    
    for size in sizes:
        # 创建数据
        A_np = np.random.rand(size, size)
        B_np = np.random.rand(size, size)
        
        A_cnp = cnp.array(A_np)
        B_cnp = cnp.array(B_np)
        
        # NumPy矩阵乘法
        start_time = time.time()
        C_np = A_np @ B_np
        np_time = time.time() - start_time
        numpy_times.append(np_time)
        
        # cuPyNumeric矩阵乘法
        start_time = time.time()
        C_cnp = A_cnp @ B_cnp
        cnp_time = time.time() - start_time
        cupynumeric_times.append(cnp_time)
        
        print(f"矩阵大小: {size}x{size}")
        print(f"  NumPy矩阵乘法: {np_time:.6f}秒")
        print(f"  cuPyNumeric矩阵乘法: {cnp_time:.6f}秒")
        print(f"  加速比: {np_time/cnp_time:.2f}x")
    
    return numpy_times, cupynumeric_times

def benchmark_linear_algebra(sizes):
    """
    对比线性代数操作性能
    
    参数:
    sizes: 矩阵大小列表
    
    返回:
    numpy_svd_times, cupynumeric_svd_times: 各大小下的SVD性能数据
    numpy_eig_times, cupynumeric_eig_times: 各大小下的特征值分解性能数据
    """
    numpy_svd_times = []
    cupynumeric_svd_times = []
    numpy_eig_times = []
    cupynumeric_eig_times = []
    
    for size in sizes:
        # 创建数据
        A_np = np.random.rand(size, size)
        A_cnp = cnp.array(A_np)
        
        # NumPy SVD
        start_time = time.time()
        U_np, S_np, Vh_np = np.linalg.svd(A_np)
        np_svd_time = time.time() - start_time
        numpy_svd_times.append(np_svd_time)
        
        # cuPyNumeric SVD
        start_time = time.time()
        U_cnp, S_cnp, Vh_cnp = cnp.linalg.svd(A_cnp)
        cnp_svd_time = time.time() - start_time
        cupynumeric_svd_times.append(cnp_svd_time)
        
        print(f"矩阵大小: {size}x{size}")
        print(f"  NumPy SVD: {np_svd_time:.6f}秒")
        print(f"  cuPyNumeric SVD: {cnp_svd_time:.6f}秒")
        print(f"  SVD加速比: {np_svd_time/cnp_svd_time:.2f}x")
        
        # NumPy特征值分解
        start_time = time.time()
        eigvals_np, eigvecs_np = np.linalg.eig(A_np)
        np_eig_time = time.time() - start_time
        numpy_eig_times.append(np_eig_time)
        
        # cuPyNumeric特征值分解
        start_time = time.time()
        eigvals_cnp, eigvecs_cnp = cnp.linalg.eig(A_cnp)
        cnp_eig_time = time.time() - start_time
        cupynumeric_eig_times.append(cnp_eig_time)
        
        print(f"  NumPy特征值分解: {np_eig_time:.6f}秒")
        print(f"  cuPyNumeric特征值分解: {cnp_eig_time:.6f}秒")
        print(f"  特征值分解加速比: {np_eig_time/cnp_eig_time:.2f}x")
    
    return numpy_svd_times, cupynumeric_svd_times, numpy_eig_times, cupynumeric_eig_times

def benchmark_element_wise_operations(sizes):
    """
    对比元素级操作性能
    
    参数:
    sizes: 数组大小列表
    
    返回:
    numpy_times, cupynumeric_times: 各大小下的性能数据
    """
    numpy_times = []
    cupynumeric_times = []
    
    for size in sizes:
        # 创建数据
        A_np = np.random.rand(size, size)
        B_np = np.random.rand(size, size)
        
        A_cnp = cnp.array(A_np)
        B_cnp = cnp.array(B_np)
        
        # NumPy元素级操作
        start_time = time.time()
        C_np = np.sin(A_np) + np.cos(B_np) * np.sqrt(A_np**2 + B_np**2)
        np_time = time.time() - start_time
        numpy_times.append(np_time)
        
        # cuPyNumeric元素级操作
        start_time = time.time()
        C_cnp = cnp.sin(A_cnp) + cnp.cos(B_cnp) * cnp.sqrt(A_cnp**2 + B_cnp**2)
        cnp_time = time.time() - start_time
        cupynumeric_times.append(cnp_time)
        
        print(f"数组大小: {size}x{size}")
        print(f"  NumPy元素级操作: {np_time:.6f}秒")
        print(f"  cuPyNumeric元素级操作: {cnp_time:.6f}秒")
        print(f"  加速比: {np_time/cnp_time:.2f}x")
    
    return numpy_times, cupynumeric_times

def run_comprehensive_benchmarks():
    """运行全面的性能基准测试"""
    # 定义测试的数组大小
    creation_sizes = [1000, 2000, 5000, 10000]
    matrix_sizes = [1000, 2000, 3000, 4000]
    linalg_sizes = [500, 1000, 1500, 2000]
    element_sizes = [1000, 5000, 10000, 20000]
    
    # 运行基准测试
    print("=== 数组创建性能测试 ===")
    np_creation, cnp_creation = benchmark_array_creation(creation_sizes)
    
    print("\n=== 矩阵乘法性能测试 ===")
    np_matmul, cnp_matmul = benchmark_matrix_operations(matrix_sizes)
    
    print("\n=== 线性代数性能测试 ===")
    np_svd, cnp_svd, np_eig, cnp_eig = benchmark_linear_algebra(linalg_sizes)
    
    print("\n=== 元素级操作性能测试 ===")
    np_elem, cnp_elem = benchmark_element_wise_operations(element_sizes)
    
    # 计算平均加速比
    creation_speedup = np.mean(np.array(np_creation) / np.array(cnp_creation))
    matmul_speedup = np.mean(np.array(np_matmul) / np.array(cnp_matmul))
    svd_speedup = np.mean(np.array(np_svd) / np.array(cnp_svd))
    eig_speedup = np.mean(np.array(np_eig) / np.array(cnp_eig))
    elem_speedup = np.mean(np.array(np_elem) / np.array(cnp_elem))
    
    print("\n=== 性能总结 ===")
    print(f"数组创建平均加速比: {creation_speedup:.2f}x")
    print(f"矩阵乘法平均加速比: {matmul_speedup:.2f}x")
    print(f"SVD分解平均加速比: {svd_speedup:.2f}x")
    print(f"特征值分解平均加速比: {eig_speedup:.2f}x")
    print(f"元素级操作平均加速比: {elem_speedup:.2f}x")
    
    # 可视化结果
    """
    plt.figure(figsize=(15, 10))
    
    # 数组创建性能
    plt.subplot(2, 2, 1)
    plt.plot(creation_sizes, np_creation, 'o-', label='NumPy')
    plt.plot(creation_sizes, cnp_creation, 's-', label='cuPyNumeric')
    plt.title('数组创建性能')
    plt.xlabel('数组大小 (n×n)')
    plt.ylabel('时间 (秒)')
    plt.legend()
    plt.grid(True)
    
    # 矩阵乘法性能
    plt.subplot(2, 2, 2)
    plt.plot(matrix_sizes, np_matmul, 'o-', label='NumPy')
    plt.plot(matrix_sizes, cnp_matmul, 's-', label='cuPyNumeric')
    plt.title('矩阵乘法性能')
    plt.xlabel('矩阵大小 (n×n)')
    plt.ylabel('时间 (秒)')
    plt.legend()
    plt.grid(True)
    
    # 线性代数性能
    plt.subplot(2, 2, 3)
    plt.plot(linalg_sizes, np_svd, 'o-', label='NumPy SVD')
    plt.plot(linalg_sizes, cnp_svd, 's-', label='cuPyNumeric SVD')
    plt.plot(linalg_sizes, np_eig, '^-', label='NumPy Eig')
    plt.plot(linalg_sizes, cnp_eig, 'v-', label='cuPyNumeric Eig')
    plt.title('线性代数性能')
    plt.xlabel('矩阵大小 (n×n)')
    plt.ylabel('时间 (秒)')
    plt.legend()
    plt.grid(True)
    
    # 元素级操作性能
    plt.subplot(2, 2, 4)
    plt.plot(element_sizes, np_elem, 'o-', label='NumPy')
    plt.plot(element_sizes, cnp_elem, 's-', label='cuPyNumeric')
    plt.title('元素级操作性能')
    plt.xlabel('数组大小 (n×n)')
    plt.ylabel('时间 (秒)')
    plt.legend()
    plt.grid(True)
    
    plt.tight_layout()
    plt.savefig('cupynumeric_performance_comparison.png')
    plt.close()
    """
    
    return {
        'creation': (creation_sizes, np_creation, cnp_creation),
        'matmul': (matrix_sizes, np_matmul, cnp_matmul),
        'svd': (linalg_sizes, np_svd, cnp_svd),
        'eig': (linalg_sizes, np_eig, cnp_eig),
        'elem': (element_sizes, np_elem, cnp_elem)
    }

# 运行全面基准测试
# benchmark_results = run_comprehensive_benchmarks()