cuml机器学习GPU库 sklearn升级版AutoDL使用

浩浩的科研笔记

已于 2024-02-18 21:36:42 修改

阅读量3.9k

点赞数 8

分类专栏：一些游荡的随笔知识文章标签：机器学习 sklearn 人工智能

于 2023-08-23 22:27:49 首次发布

本文链接：https://blog.csdn.net/chrnhao/article/details/132461265

版权

一些游荡的随笔知识专栏收录该内容

16 篇文章

订阅专栏

CUML库

最近在做机器学习任务的时候发现我自己的数据集太大，直接用sklearn 跑起来时间很长，然后问GPT得知了有CUML库，后来去研究了一下，发现这个库只支持linux系统，从官网直接获取下载命令基本上也实现不了最后，选择使用AutoDL租了一个GPU来安装这个库。具体步骤如下。

目前好像不太行了得需要换源才行，该文章安装部分可能不会成功了，隐藏会扣分，我找到好用的办法再分享给大家
如果是正常讨论的话本身电脑就是liunx系统，按照道理说，直接去下面的官网链接去过去下载指令就可以了。进去之后的界面如下，反正我是没有成功，但我看似乎别人都是这吗做的，所以姑且把链接贴上。
链接: https://docs.rapids.ai/install#prerequisites
在这里插入图片描述

安装

接下啦是我的方法，首先进入AutoDL官网
链接: https://www.autodl.com/home
点击右上角的控制台
在这里插入图片描述
点击左侧的实例容器

点击租用新的实例

选择一个带GPU的设备

滑到最底部然后选择框架，以及cuda版本

点击立即创建

创建成功之后点击右侧的jupterlab

点击下面的终端创建一个终端窗口

然后再里面我们需要建立一个新的解释器环境，来保证与cuml库适配，不会因为python版本问题导致安装失败。
我们先输入如下指令

conda create -n rapids python=3.9

然后输入y敲回车进入安装
在这里插入图片描述
然后输入如下指令

source activate rapids

进入我们刚刚安装好的环境
在这里插入图片描述
最关键的部分来了请运行如下命令，从这个源安装cuml库

pip install --default-time=300 --extra-index-url=https://pypi.nvidia.com cuml-cu11

等待安装成功之后，在命令行输入python,然后再输入import cuml
OK 没问题
在这里插入图片描述
然后我们要在jupter上使用所以需要配置一下新的内核，我们先输入exit()退出python,然后再命令行输入如下命令

python -m ipykernel install --name rapids

如果遇到如下情况我们先安装ipykernel
在这里插入图片描述
输入如下指令安装

 pip install ipykernel

在这里插入图片描述
之后输入

python -m ipykernel install --name rapids

注意一定要在新建的环境下输入该命令
如果安装错了运行如下命令删除内核

jupyter kernelspec remove rapids

在这里插入图片描述
之后点击一下浏览器的页面刷新

再点击右侧加号

即可以看到新的内核的jupter笔记本，点开笔记本。

输入

import cuml

然后点击上方小三角，没有报错运行成功
在这里插入图片描述

对比实验

为了对比我们也要安装sklearn库做一下时间的对比
回到启动页点击终端
在这里插入图片描述
进入终端依次输入以下两个指令

source activate rapids

清华园 sklearn安装命令

pip install -i https://pypi.tuna.tsinghua.edu.cn/simple scikit-learn

在这里插入图片描述
看到安装成功
回到刚才建好的ipynb文件，输入

import sklearn

运行没报错
在这里插入图片描述
接下来我们用KNN算法进行以下对比
首先运行sklearn的KNN算法如下，运行时间1分11秒

from sklearn.model_selection import train_test_split
from sklearn.neighbors import KNeighborsClassifier
from sklearn.metrics import accuracy_score
import numpy as np
import time

X = np.random.random((1000000,70))
y = np.random.randint(0,2,1000000)

# 分割数据为训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

# 初始化KNN分类器。这里选择邻居数为3。
knn = KNeighborsClassifier(n_neighbors=20)

# 使用训练数据拟合模型
start_time = time.time()  # 记录开始时间
knn.fit(X_train, y_train)

# 进行预测
y_pred = knn.predict(X_test)
end_time = time.time()  # 记录结束时间
elapsed_time = end_time - start_time  # 计算程序运行时间，单位为秒
# 将秒数转换为小时、分钟和秒数
hours = int(elapsed_time // 3600)
minutes = int((elapsed_time % 3600) // 60)
seconds = int(elapsed_time % 60)
print(f"程序运行时间：{hours}小时 {minutes}分钟 {seconds}秒\n")

# 评估预测的准确性
accuracy = accuracy_score(y_test, y_pred)
print(f"Accuracy: {accuracy:.2f}")

接下来我们查找cuml库中KNN算法的API

cuml库API用法查询

链接: https://docs.rapids.ai/api/cuml/stable/

点击右上角小放大镜
在这里插入图片描述
然后输入sklearn中KNN算法的API名称

我研究了一下用的是这个

然后我们用

from cuml.neighbors import KNeighborsClassifier

替换

from sklearn.neighbors import KNeighborsClassifier

运行，使用时间从1分11秒缩短为5秒
在这里插入图片描述

from sklearn.model_selection import train_test_split
# from sklearn.neighbors import KNeighborsClassifier
from cuml.neighbors import KNeighborsClassifier

from sklearn.metrics import accuracy_score
import numpy as np
import time

X = np.random.random((1000000,70))
y = np.random.randint(0,2,1000000)

# 分割数据为训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

# 初始化KNN分类器。这里选择邻居数为3。
knn = KNeighborsClassifier(n_neighbors=20)

# 使用训练数据拟合模型
start_time = time.time()  # 记录开始时间
knn.fit(X_train, y_train)

# 进行预测
y_pred = knn.predict(X_test)
end_time = time.time()  # 记录结束时间
elapsed_time = end_time - start_time  # 计算程序运行时间，单位为秒
# 将秒数转换为小时、分钟和秒数
hours = int(elapsed_time // 3600)
minutes = int((elapsed_time % 3600) // 60)
seconds = int(elapsed_time % 60)
print(f"程序运行时间：{hours}小时 {minutes}分钟 {seconds}秒\n")


# 评估预测的准确性
accuracy = accuracy_score(y_test, y_pred)
print(f"Accuracy: {accuracy:.2f}")