使用numpy的ndarray存储str类型的问题

醉一心

于 2023-09-13 14:04:29 发布

阅读量621

点赞数

分类专栏： Bug 文章标签： numpy

本文链接：https://blog.csdn.net/qq_37402392/article/details/132852136

版权

Bug 专栏收录该内容

5 篇文章 0 订阅

订阅专栏

1 问题描述

使用numpy来存储str类型的数据时，numpy会把这个数据转化为numpy.str_类型的对象。此时，我想要在对应位置上再添加字符的话，会出现字符赋值不成功的情况。情况如下所示：

X_list[i - 1, c, w] + "0"
PyDev console: starting.
'10'
X_list[i - 1, c, w]
'1'
X_list[i, c, w] = X_list[i - 1, c, w] + "0"
X_list[i, c, w]
'1'

2 问题原因

由于 numpy 中的 ndarray 要求所有数据为同一种类型，所以在创建时我使用 dtype=str。此时 numpy 会根据创建时所有元素的最大字符串长度设定 str 的类型。例如所有元素中的最大字符串长度为 11，则会将 str 的类型设置为’<U11’。此时所存储最大字符串长度就被设置为了 11，超过这个长度都会被截取，在进行赋值。并且不会抛出任何异常。

如果默认不声明字符串长度的话，最大字符串长度为1。

比如下面这个数组，每个数组元素只能放一个字符

leg_arr=np.empty(4,3),dtype=str)

如果不知道这一点，即使给数组元素赋个长值也白搭，只有首字符能够保存在元素里，示例：

leg_arr[1,3]='人生苦短 我用python'
print(leg_arr[1,3])
>>人

3 解决方案

解决办法 1：使其可接受可变长度的字符，修改 str 为 object 数据类型即可。

leg_arr=np.empty((4,3), dtype=object)

缺点是灵活性带来了低效率，所以比较适合数据量不大的情况。

解决办法 2：预先设定好元素的字符串长度，缺点是效率高但不够灵活，适合大数据量情况。“<U100”就是Unicode字符编码100长度以下。

x = np.array([], dtype="<U100")

参考链接：

https://blog.csdn.net/qq_36241012/article/details/118184807

https://blog.csdn.net/weixin_43894266/article/details/115450048

醉一心

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
使用numpy的ndarray存储str类型的问题

使用numpy来存储str类型的数据时，numpy会把这个数据转化为numpy.str_类型的对象。此时，我想要在对应位置上再添加字符的话，会出现字符赋值不成功的情况。
复制链接

扫一扫

专栏目录