数据清洗常用工具之Numpy
- 目前在 Python 中,numpy 和 pandas 是最主流的工具
- Numpy 中的向量化运算使得数据处理变得高效
- Pandas 提供了大量数据清洗的高效方法
- 在Python中,尽可能多的使用 numpy 和 pandas 中的函数,提高数据清洗的效率
Numpy 常用数据结构
-
Numpy 中常用的数据结构是 ndarray 格式
-
可以使用 array 函数创建,语法格式为 array(列表或元组)
#创建一维数组 arr1 = np.array([-9, 7, 4, 3]) print(type(arr1)) print(arr1) arr2 = np.array([-9, 7, 4, 3],dtype=str) print(type(arr2)) print(arr2) arr3 = np.array([-9, 7, 4, 3],dtype=float) print(type(arr3)) print(arr3) arr4 = np.array([-9, 7, 4, 3],dtype=int) print(type(arr4)) print(arr4) #结果 #<class 'numpy.ndarray'> #[-9 7 4 3] #<class 'numpy.ndarray'> #['-9' '7' '4' '3'] #<class 'numpy.ndarray'> #[-9. 7. 4. 3.] #<class 'numpy.ndarray'> #[-9 7 4 3] #创建二维数组 import numpy as np arr1 = np.array([[1,2,3,4],[5,6,7,8],[9,10,11,12]]) print(arr1) #结果 #[[ 1 2 3 4] # [ 5 6 7 8] # [ 9 10 11 12]]
-
还可以使用其他函数例如 arange、linspace、zeros 、ones等 创建
# arange数组 numpy.arange(起始值,终止值,步长) 注意:[起始值,终止值)左闭右开 import numpy as np x = np.arange(1,10,1) print(x) #结果 #[1 2 3 4 5 6 7 8 9] # 等差数组:numpy.lins