使用给定的例程(如何使用scipy加载Matlab .mat文件),我无法访问更深的嵌套结构以将其恢复为词典
为了更详细地介绍这个问题,我给出以下玩具示例:
1
2
3
4load scipy.io as spio
a = {'b':{'c':{'d': 3}}}
# my dictionary: a['b']['c']['d'] = 3
spio.savemat('xy.mat',a)
现在我想将mat-File读回python。 我尝试了以下方法:
1vig=spio.loadmat('xy.mat',squeeze_me=True)
如果现在我要访问字段,则会得到:
1
2
3
4
5
6
7
8
9
10
11>> vig['b']
array(((array(3),),), dtype=[('c', '|O8')])
>> vig['b']['c']
array(array((3,), dtype=[('d', '|O8')]), dtype=object)
>> vig['b']['c']['d']
---------------------------------------------------------------------------
ValueError Traceback (most recent call last)
/ in ()
ValueError: field named d not found.
但是,通过使用选项struct_as_record=False,可以访问该字段:
1v=spio.loadmat('xy.mat',squeeze_me=True,struct_as_record=False)
现在可以通过以下方式访问它
1
2>> v['b'].c.d
array(3)
使用默认设置,可以使用如下表达式来挖掘嵌套: vig[b].item()[d].item(),解析结构化数组和对象数组的混合。 `[b]是字典索引,而其他是字段名称索引。
以下是函数,仅使用此loadmat而不是scipy.io的loadmat即可重建字典:
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34import scipy.io as spio
def loadmat(filename):
'''
this function should be called instead of direct spio.loadmat
as it cures the problem of not properly recovering python dictionaries
from mat files. It calls the function check keys to cure all entries
which are still mat-objects
'''
data = spio.loadmat(filename, struct_as_record=False, squeeze_me=True)
return _check_keys(data)
def _check_keys(dict):
'''
checks if entries in dictionary are mat-objects. If yes
todict is called to change them to nested dictionaries
'''
for key in dict:
if isinstance(dict[key], spio.matlab.mio5_params.mat_struct):
dict[key] = _todict(dict[key])
return dict
def _todict(matobj):
'''
A recursive function which constructs from matobjects nested dictionaries
'''
dict = {}
for strg in matobj._fieldnames:
elem = matobj.__dict__[strg]
if isinstance(elem, spio.matlab.mio5_params.mat_struct):
dict[strg] = _todict(elem)
else:
dict[strg] = elem
return dict
这需要更好地宣传。 scipys loadmat的当前实现是一个真正的难题。 很棒的工作!
实际上,下面的@jpapons方法甚至更好,并且在处理像图像这样的数组时是必需的。
非常感谢你! 这很棒!
只是对合并答案的增强,不幸的是,如果合并对象到达单元格数组,它将停止递归。以下版本将改为列出它们,并在可能的情况下继续递归到单元数组元素中。
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53import scipy
import numpy as np
def loadmat(filename):
'''
this function should be called instead of direct spio.loadmat
as it cures the problem of not properly recovering python dictionaries
from mat files. It calls the function check keys to cure all entries
which are still mat-objects
'''
def _check_keys(d):
'''
checks if entries in dictionary are mat-objects. If yes
todict is called to change them to nested dictionaries
'''
for key in d:
if isinstance(d[key], spio.matlab.mio5_params.mat_struct):
d[key] = _todict(d[key])
return d
def _todict(matobj):
'''
A recursive function which constructs from matobjects nested dictionaries
'''
d = {}
for strg in matobj._fieldnames:
elem = matobj.__dict__[strg]
if isinstance(elem, spio.matlab.mio5_params.mat_struct):
d[strg] = _todict(elem)
elif isinstance(elem, np.ndarray):
d[strg] = _tolist(elem)
else:
d[strg] = elem
return d
def _tolist(ndarray):
'''
A recursive function which constructs lists from cellarrays
(which are loaded as numpy ndarrays), recursing into the elements
if they contain matobjects.
'''
elem_list = []
for sub_elem in ndarray:
if isinstance(sub_elem, spio.matlab.mio5_params.mat_struct):
elem_list.append(_todict(sub_elem))
elif isinstance(sub_elem, np.ndarray):
elem_list.append(_tolist(sub_elem))
else:
elem_list.append(sub_elem)
return elem_list
data = scipy.io.loadmat(filename, struct_as_record=False, squeeze_me=True)
return _check_keys(data)
极好的工作。 如果可以将其并入scipy,那就太好了。
此代码将具有包含双精度数组的字段的Matlab结构转换为具有双精度列表列表的python dict,这可能是作者的意图,但可能不是大多数人想要的。 更好的返回值是使用ndarray作为值的字典。
Ive提出了一个改进的版本,可以在将ndarray转换为列表之前测试结构的数组内容。
我在scipy邮件列表(https://mail.python.org/pipermail/scipy-user/)上被告知,还有两种方法可以访问此数据。
这有效:
1
2
3import scipy.io as spio
vig=spio.loadmat('xy.mat')
print vig['b'][0, 0]['c'][0, 0]['d'][0, 0]
我的机器上的输出:
3
进行这种访问的原因是:"出于历史原因,在Matlab中,所有内容至少都是2D数组,甚至是标量。"
因此,scipy.io.loadmat默认情况下模仿Matlab行为。
找到一个解决方案,可以访问" scipy.io.matlab.mio5_params.mat_struct对象"的内容,可以通过以下方法进行调查:
1v['b'].__dict__['c'].__dict__['d']
您在loadmat中使用了哪些选项?
另一种有效的方法:
1
2
3import scipy.io as spio
vig=spio.loadmat('xy.mat',squeeze_me=True)
print vig['b']['c'].item()['d']
输出:
3
我也在scipy邮件列表中学习了这种方法。我当然还不明白为什么还需要添加'.item()',并且:
1print vig['b']['c']['d']
将会抛出一个错误:
IndexError:只有整数,切片(:),省略号(...),numpy.newaxis(None)和整数或布尔数组是有效索引
但我会在知道后再补充说明。 numpy.ndarray.item的解释(来自numpy参考):
将数组的元素复制到标准Python标量并返回。
(请注意,此答案与hpaulj对最初问题的评论基本相同,但我觉得该评论"不可见"或不够理解。当我为第一个搜索解决方案时,我当然没有注意到它。时间,几周前)。