numpy数据类型说明以及自动转换陷阱

       numpy的dtype是一个很重要的概念,因为numpy为了性能,优化了内存管理,ndarray的值在内存中几乎是连续的,同时其每个元素的内存大小也被设计成是一样的,因此,当生成ndarray时,每个元素的数据类型都会被转为相同的类型,这时如果原生的数据类型是不一样的,那么就涉及到一个数据类型转换的问题,即data type casting。

       明白numpy中的数据类型转换可以有效的避免和理解很多的行为,因为numpy中很多的error往往都是有数据类型转换引起的,所以理解numpy的数据类型转换可以预防和排查很多的问题。首先,在numpy中有很多的数据类型,多于python内置数据类型,具体有哪些类型,可以参看下图,下图的columns和index是数据类型在numpy中的符号,具体的释义可以查看这里。下面,我们重点讲一下numpy中关于数据类型以及转换中容易碰到的陷进或者需要注意的点。

一、数据类型的表示

       在numpy中,一个数据类型实际上是一个dtype对象,其有一些重要的属性,比如字节顺序、数据类型、字节数大小等,一般的,numpy中的数据类型会表示成类似'<i4'这样,这个表示法中,<表示字节顺序,i表示数据类型,这里表示整数,4表示一个元素占据的字节数,这里4字节,表示32位整数。

二、构造ndarray时的dtype

       在构造ndarray时,可以指定dtype参数来设置ndarray里面元素的数据类型,这个dtype可以用'i4'这样的表示方式,也可以用int表示,但是后者没法指定字节数。要注意的是,指定dtype时,一定要确认这个dtype可以兼容所有元素,防止溢出或者不兼容,对此我们可以通过result_type(*array_like)来判断我们应该设定的dtype,这个函数返回的dtype是可以兼容所有元素的最小size的数据类型;或者我们无需设定,其会自动进行数据类型的转换,我们也可以通过ndarray.dtype属性查看数据类型。Anyway,我们要有这种数据类型转换的意识,因为这会影响后续对ndarray的操作。

三、不同数据类型之间的转换兼容性

       numpy的数据类型之间能够实现转换,可以通过np.can_cast(fromtype,totype)这个函数来判断,更详细的可以查看下图。

四、numpy对python对象数据类型'O'的处理

       当numpy中有python独有的原生数据类型,比如Decimal,那么ndarray会被转为object数据类型,表示python对象数据类型,当然这里也可以转为字符串,但是字符串对于np.nan往往会占据更大的itemsize。

       当numpy函数对dtype位object的ndarray处理时,会先把里面的元素再进一步转为其他numpy的数据类型,这样才可以操作,所以这里如果函数没法或没有指定类型参数,那么会默认以第一个inner loop到的数据类型作为所有元素的类型,并以此类型进行后续转换,这时,对于object类型的ndarray来说,往往容易出现数据无法转换成功的异常。所以要注意处理时第一个inner loop遇到的元素的类型是否可以兼容后面要处理的所有元素,不然会抛出异常。看下面的例子说明。

import numpy as np
from decimal import Decimal

arr=np.array([[1,2.0,3],['a',3,np.nan],[2,np.nan,Decimal('5')]])
arr1=np.apply_along_axis(lambda x:x[0],arr=arr,axis=1)
arr1
# output:
# ValueError: invalid literal for int() with base 10: 'a'

arr2=np.apply_along_axis(lambda x:x[1],arr=arr,axis=1)
arr2
# output:
# array([ 2.,  3., nan])

arr2=np.apply_along_axis(lambda x:x[2],arr=arr,axis=1)
arr2
# output:
# array([          3, -2147483648,           5])

       从上面的例子中可以看到,arr1中,由于第一个inner loop遇到的元素是整数1,所以便会以整数类型对后续的元素进行转换,但是后面的一个元素是字符'a',无法将其转为int,因此就会报上述error;arr2中,第一个遇到的元素是2.0,为float,所以后面的元素都会被转为float,因此输出为array([ 2.,  3., nan]),其中都变成了float,要注意的是,由于np.nan本身就是一个浮点数,因此这里可以正确的转换,转换之后还是np.nan;但是看arr2,由于第一个遇到的元素类型为int32,后面的np.nan为float64,会造成溢出,这样便无法正确的转换,从而会用int32最接近np.nan的值去替换,所以就是-2**31==-2147483648,这里之所以是2**31,而不是2**32-1,是因为这里的int是signed int,即有正负号的int,所以其范围是-2**31~2**31-1;而Decimal('5')被转为了int 5,所以就出现了上述的结果。

       所以,当要被转成ndarray的原始数据中有np.nan时,要特别注意这一点,最好是指定float类型,注意其他数据的兼容;而如果同时又是obejct数据类型时,那么同时也要注意第一个inner loop遇到的元素的数据类型,注意和后面的数据类型保持兼容。

五、结语

       numpy的dtype有诸多陷进,需要小心对待,谨慎核查,然后灵活运用。

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值