解密推理部署工程师的必备技能，面试题库分析

最新推荐文章于 2024-07-25 18:39:37 发布

科技互联人生

最新推荐文章于 2024-07-25 18:39:37 发布

阅读量711

点赞数 28

分类专栏：科技数码人工智能文章标签：人工智能面试

本文链接：https://blog.csdn.net/njbaige/article/details/138292496

版权

科技同时被 3 个专栏收录

173 篇文章 2 订阅

订阅专栏

数码

173 篇文章 0 订阅

订阅专栏

人工智能

173 篇文章 0 订阅

订阅专栏

 

推理部署工程师面试题库

   

1. 描述一下SM的结构？

英伟达 GPU 架构：
* 计算核心：INT32、FP32、FP64 CUDA 核心，Tensor 核心，超低延迟负载/存储。
* 调度和存储器：Warp 调度器注册文件，共享存储器，L1 缓存。

2. 共享内存和寄存器分别应该存放哪些数据。

局部变量、临时变量，场景：高频访问、空间较小。

3. bank冲突是什么？描述具体结构，如何解决？

为了并行处理，NVIDIA GPU的共享内存被划分为多个“bank”来支持并发访问。然而，当多个线程同时访问同一个bank内的不同地址时，可能会导致bank冲突，从而降低内存访问的性能。

数据对齐：确保共享内存中的数据元素（例如数组或结构体）是按照bank大小对齐的。这样，多个线程可以同时访问不同的banks，而不会产生冲突。

线程束（warp）的对齐访问：尽可能地组织线程，使得在同一个warp内的线程访问的数据都来自不同的banks。例如，如果一个warp有32个线程，并且每个线程访问不同的bank，那么整个warp的访问将是无冲突的。

数据填充：Padding方式避免bank冲突。

分支冲突优化处理：
当 Warp 内存在分支冲突时，符合条件的部分将继续执行，无需等待其余部分。该机制可有效提升程序性能。

当一个warp中的线程在执行一个条件分支时，如果不是所有的线程都满足相同的条件（例如，部分线程满足if条件，而其他线程满足else条件），这将导致warp内的线程分裂成多个执行路径，从而增加了计算的开销。

当warp中的线程分裂到不同的执行路径时，它们不能再同时执行相同的指令，因为它们需要执行不同的指令集。这导致了一种情况，其中部分线程在某个时刻被激活，而其他线程则被暂停。在warp内部，所有的线程都是硬件级别上同步的。当一个warp中的线程分裂到不同的执行路径时，这个warp内的所有线程都需要等待，直到所有的分支条件都被满足。具体来说：

多线程中，部分满足 if 条件、其余满足 else 条件的线程将分裂 Warp，形成两个独立的 Warp，提升并行处理效率。
每个新的warp都会独立地执行其指定的指令路径，不需要等待其他warp。

5. 项目中用过TensorCore吗？了解TensorCore的原理吗？

揭秘 Tensor Core 的强大之处！
在 AI 领域，Tensor Core 以其压倒性的计算能力，加速了数据处理和模型训练。探索其技术，了解其如何将您的 AI 工作流程提升到新的高度。

6. 为什么用float4向量来存取数据？有什么好处？

向量化优势：
使用 float4 向量，您可在 GPU 和并行处理器上提升性能：
* 数据对齐优化：自动对齐至 4 字节边界，加速数据访问。
* 内存事务优化：减少内存访问开销，处理多个数据元素。
* 带宽利用率提升：通过减少交易数量和增加数据量，有效利用内存带宽。

7. 了解cuda流和cuda graph吗？

CUDA流：优化GPU并行计算
CUDA流是管理和调度GPU操作的强大工具。通过组织操作进入不同流，可以同时执行多个流，提高GPU利用率。它提供了一种灵活的方法来优化并行计算，充分利用GPU资源。
CUDA 图：提升 GPU 性能
CUDA 图是一种先进技术，通过预先定义和优化 GPU 操作顺序，提升并行性并增加性能。它减少了操作间的依赖关系，允许开发人员可视化 GPU 操作，实现更高级的优化和调度。

8. 在Nsight Computing中，经常关注的与内存相关的指标?

内存带宽（Memory Bandwidth）：内存带宽指标告诉你GPU的内存子系统每秒可以传输的数据量。高带宽通常表示内存子系统的性能良好。

L1、L2和L3缓存命中率（Cache Hit Rate）：这些指标告诉你在访问缓存时命中的次数与尝试访问缓存的总次数之间的比例。高的缓存命中率通常表示算法和数据访问模式对缓存友好。

内存利用率（Memory Utilization）：内存利用率指标告诉你GPU内存的使用情况。了解内存的使用情况可以帮助你识别内存使用过多或过少的问题。

内存延迟（Memory Latency）：内存延迟指标告诉你从发出内存请求到收到响应所需的时间。理解内存延迟可以帮助你优化数据访问和计算模式，从而减少延迟并提高性能。

9.cutlass中如何对GEMM进行优化的吗？

深入了解 CUTLASS：功能强大且高效的 NVIDIA GPU 库，专为深度学习而设计。探索其在加快训练和推理方面的应用，

探索Transformer的神秘世界：
* 揭示基础技术，了解其内部运作原理。
* 认识Faster Transformer，提升效率。
* 掌握CUDA优化技巧，释放最大潜力。

11. Paged Attention有了解吗？

基于 FlashAttention 的 PagedAttention 革新了 Attention 性能，将其提升了 2.5 倍，有效减轻了训练大型 Transformer 模型的计算负担。

zhuanlan.zhihu.com/p/638468472

12. TensorFlow和Pytorch设计思路有何不同？