python编译CUDA c++扩展的过程中卡住

最新推荐文章于 2024-11-13 17:24:18 发布

2401_84009488

最新推荐文章于 2024-11-13 17:24:18 发布

阅读量481

点赞数 11

分类专栏：程序员文章标签： python c++ 开发语言

本文链接：https://blog.csdn.net/2401_84009488/article/details/138034483

版权

程序员专栏收录该内容

195 篇文章 1 订阅

订阅专栏

文章介绍了在PyTorch中遇到lock文件导致编译问题的解决方法，包括定位并删除lock文件，以及lock文件在多进程编译中的作用。同时提及了提供一套Python开发者的学习资源，覆盖从入门到进阶的全面学习内容。

摘要由CSDN通过智能技术生成

解决方案

如果遇到因锁文件而无法进行编译的问题，可以手动删除这个锁文件来解锁编译过程。具体步骤如下：

1. 定位`.cache`目录

这个目录通常位于用户的主目录下的.cache/torch_extensions路径中，例如~/.cache/torch_extensions。
或者“C:\anaconda3\envs\XXX\Lib\site-packages\torch\utils\cpp_extension.py”。找到

baton = FileBaton(os.path.join(build_directory, 'lock'))

所在行，大概是第1686行，设置断点。使用python调试器运行自己的.py代码，程序会运行直到达到设置的断点。当程序在断点处暂停时，使用

print(build_directory)

命令来打印build_directory的值。这将显示编译缓存目录的路径 "C:\Users\AppData\Local\torch_extensions\torch_extensions\Cache\py39_cu121\_hash_encoder"，这是PyTorch用于存储编译扩展的临时文件和锁文件的地方。

2. 删除锁文件

在上述缓存目录路径中，找到尝试编译的扩展相关的子目录。
在这个子目录中，寻找名为lock的文件，然后将其删除。

3. 重新编译

删除锁文件后，重新运行编译命令，应该不会再因为锁文件的问题而被阻塞。

Lock文件介绍

在PyTorch编译和加载CUDA/C++扩展的过程中，lock文件用于同步多个并行编译进程，防止它们同时修改同一套编译产物或缓存。这是一种常见的机制，用于保证在使用共享资源时的线程安全或进程安全。下面是lock文件的一些主要用途和工作原理：

用途

避免冲突：当有多个进程尝试编译同一个CUDA/C++扩展时，lock文件确保同一时间只有一个进程能进行编译，从而避免编译产物被不同进程同时写入或修改，造成数据损坏。
资源管理：在编译过程中可能会生成临时文件或缓存，lock文件帮助管理这些资源，确保它们在正确的时间被创建和清理，防止因为资源未正确释放而导致的问题。

工作原理

创建锁定：当一个编译进程开始时，它会检查lock文件是否存在。如果不存在，该进程会创建一个lock文件，并继续编译操作。
检测锁定：如果另一个编译进程启动并发现lock文件已存在，它会知道另一个编译过程正在进行中，因此会等待直到lock文件被删除。
释放锁定：当持有lock文件的编译进程完成所有编译任务后，它会删除lock文件，表明编译资源现在是空闲的。这一操作向其他等待的进程发出信号，表明它们现在可以开始自己的编译过程。

问题

尽管lock文件是一种有效的同步机制，但在某些情况下可能会导致问题：

如果编译进程非正常终止（如因崩溃或强制退出），lock文件可能不会被正确删除。这会导致后续的编译尝试被不必要地阻塞。
在一些系统上，因为权限或文件系统的问题，lock文件可能无法被创建或删除，同样会影响编译过程。
自我介绍一下，小编13年上海交大毕业，曾经在小公司待过，也去过华为、OPPO等大厂，18年进入阿里一直到现在。

深知大多数Python工程师，想要提升技能，往往是自己摸索成长或者是报班学习，但对于培训机构动则几千的学费，着实压力不小。自己不成体系的自学效果低效又漫长，而且极易碰到天花板技术停滞不前！

因此收集整理了一份《2024年Python开发全套学习资料》，初衷也很简单，就是希望能够帮助到想自学提升又不知道该从何学起的朋友，同时减轻大家的负担。