本文介绍一种方法一劳永逸地解决了xarray、netcdf4无法读取路径中含有中文的netCDF4文件的问题
问题
假设存在正常的nc文件E:\中文\test.nc
,那么无论是
import xarray as xr
xr.open_dataset(r'E:\中文\test.nc')
还是
from netCDF4 import Dataset
Dataset(r'E:\中文\test.nc')
都会报错
FileNotFoundError: [Errno 2] No such file or directory: b'E:\\\xe4\xb8\xad\xe6\x96\x87\\test.nc'
但是只要把文件放到不含中文的路径下就可以正常读取
第一次遇到这个问题时还是写本科论文的时候,但是刚刚决定从MATLAB转Python,就遇到这么一个讨厌的问题,一直到今天都没有直接的解决方式,不得不把所有存nc文件的路径全部改为英文
有人会说强制使用英文路径更“规范”,我一直不喜欢这个借口,因为中文路径同样可以很规范,更何况这本质上应该是一个“简单且不应该存在”的技术问题
阴差阳错
直到最近,我开始学习Blender,在用VS Code连接到Blender时发现脚本中一出现中文就无法执行,甚至中文出现在注释中都不行。但是直接在Blender的控制台中是可以使用中文字符串的,我猜问题发生在脚本源码发送给解释器的路上,于是搜到一个解决方法:
Win10系统下,设置→时间和语言→语言→管理语言设置→更改系统区域设置→勾选“使用Unicode UTF-8”→确定
根据帖子上的解释,是Windows的shell在向Python解释器传递源代码时用的是本地的编码GBK
即936
,但解释器认为是UTF-8
即65001
,于是出错
按照这个方法修改设置之前,打开一个PowerShell,右键窗口看属性是这样
修改设置之后就变成了这样
做完这一切,我突然想到那该死的nc文件中文路径问题
netCDF4解析nc文件其实底层依赖的是netCDF C
,一个C语言编译的二进制代码库,Python在向C传递文件路径时是UTF-8
编码,但是C会不会以为自己接收的是本地GBK
编码然后没找到这个文件?!
现在我把系统编码(shell编码)已经改成UTF-8
了,这个问题是不是也顺便解决了?
我立刻试了一下
舒服啊~~
风险须知
改完系统设置后可能会有部分软件用不了,比如Spyder,我单位的电脑就用不了了,但是我自己的电脑就可以继续用,应该还是有系统环境的影响,好在还能改回去,取消勾选“使用Unicode UTF-8”就行了
但是最后我选择将两台电脑重置系统,重置完第一件事就是改编码,然后各种软件一通装(固态硬盘真舒服),目前还没有出现问题,我可以愉快地将nc文件存在中文路径下、在Blender脚本里使用中文了
结论与展望
“无法读取中文路径下的nc文件”这个问题主要原因就是编码问题,Python使用UTF-8
,netCDF C以为是系统编码GBK
,想办法让这俩编码统一,问题就解决了
个人建议:无脑使用UTF-8
吧
当然也有潜在的其他解决方案,比如有一个Python库h5netcdf
就抛弃netCDF C,直接使用HDF5的库进行nc文件解析,据说效率还高于netCDF C,以后有空我测试一下