关于远程桌面链接下调用显卡加速科学运算

最近由于项目需要,准备购置图形工作站进行CUDA运算,面临一个问题:假设工作站操作系统是windows server 2016,局域网远程连接后能否正常调用显卡做CUDA科学运算?通常认为:既然程序是在工作站上跑,自然可以识别显卡并调用CUDA。但是在远程连接这种情况下,就完全相反了,微软自带的远程连接工具RDP并不是把工作站直接映射到客户机这边而是将信息渲染打包后发送过来,在本地解包,具体可以参见微软官方解释如下

On the server, RDP uses its own video driver to render display output by constructing the rendering information into network packets by using RDP protocol and sending them over the network to the client. On the client, RDP receives rendering data and interprets the packets into corresponding Microsoft Windows graphics device interface (GDI) API calls.

这就带来一个问题:将信息打包过程中完全忽略了必要的硬件,造成远程连接下运行软件无法获取真实的硬件相关信息,许多依托于GPU的软件无法正常使用,可以这样理解:看似我们连接到了工作站,实际却是一个半虚拟的桌面环境。微软这样做也只是为了传输起来无需耗费大量带宽,自带的工具只是为了远程维护而不是作为远程运行软件的管道。
那么,有什么方法可以实现这个功能吗

  • 1
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
当涉及到矩阵运算加速算法时,以下是一些相关的文献和资料,希望能对你有所帮助: 1. Strassen算法:Strassen算法是一种用于矩阵乘法的分治算法,可以在较少的乘法操作次数下加速矩阵乘法。你可以查阅 Volker Strassen 在 1969 年发表的原始论文,题目为 "Gaussian Elimination is not Optimal"。 2. Coppersmith-Winograd算法:Coppersmith-Winograd算法是一种用于矩阵乘法的算法,可以在理论上达到更快的运行时间。你可以查阅 Don Coppersmith 和 Shmuel Winograd 在 1987 年发表的论文,题目为 "Matrix multiplication via arithmetic progressions"。 3. GEMM优化:GEMM(General Matrix Multiply)是一种用于矩阵乘法的基本操作,很多高性能计算库和硬件都对其进行了优化。你可以查阅一些与GEMM优化相关的文献,例如 BLIS(BLAS-like Library Instantiation Software)项目的相关论文。 4. 稀疏矩阵优化:当处理稀疏矩阵时,有一些特定的优化方法可以加速运算。你可以查阅 Tim Davis 编写的《Direct Methods for Sparse Linear Systems》一书,其中有关于稀疏矩阵的优化算法的介绍。 5. 并行计算:并行计算是利用多个处理器或计算机同时进行计算的方法,可以加速矩阵运算。你可以查阅一些与并行计算相关的资料,例如《Parallel Computing for Data Science: With Examples in R, C++ and CUDA》一书。 请注意,这些文献和资料是一些经典的参考,你可能需要进一步搜索和阅读相关的研究论文和书籍来深入了解矩阵运算加速算法。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值