numpy数组:
import numpy as np
# .array用于创建数组
num = np.array([1, 2, 3, 4, 5])
# .arange()效果和.array(range())一样
num1 = np.arange(10)
print(num1)
[0 1 2 3 4 5 6 7 8 9]
# .dtype用来返回数据类型
print(num1.dtype)
int32
# 设置数据类型
num2 = np.array(range(10), dtype=float)
print(num2)
print(num2.dtype)
# 设置数据的boolean类型
num3 = np.array([1, 1, 0, 1, 0, 0], dtype=bool)
print(num3)
print(num3.dtype)
[ True True False True False False]
bool
# 调整数据类型
num4 = num3.astype('int8')
print(num4)
print(num4.dtype)
[1 1 0 1 0 0]
int8
# numpy中的小数
num5 = np.array([random.random() for i in range(10)])
print(num5)
print(num5.dtype)
[0.6147291 0.59438181 0.12209177 0.73512805 0.82820976 0.83148056
0.98489754 0.01195012 0.98115209 0.22502687]
float64
# 取两位小数
num6 = np.round(num5, 2)
print(num6)
print(num6.dtype)
[0.16 0.37 0.97 0.07 0.3 0.13 0.38 0.28 0.61 0.03]
float64
数组的形状:
.shape()用于返回数组的形状
如果array只有一行,shape返回array包含的数的个数
n1 = np.array(range(12))
print(n1.shape)
(12,) # 一维数组
如果array有多行,shape返回行和列
n2 = np.array([[1, 2, 3], [4, 5, 6], [7, 8, 9]])
print(n2.shape)
(3, 3) # 二维数组
n3 = np.array([[[1, 2, 3], [4, 5, 6]], [[6, 5, 4], [3, 2, 1]]])
print(n3.shape)
(2, 2, 3) #三维数组
.reshape()重新设置数组的形状
n1 = np.array(range(12))
n2 = n1.reshape(3, 4)
print(n2)
[[ 0 1 2 3]
[ 4 5 6 7]
[ 8 9 10 11]]
n1 = np.array(range(24))
n3 = n1.reshape(2, 3, 4)
print(n3)
[[[ 0 1 2 3]
[ 4 5 6 7]
[ 8 9 10 11]]
[[12 13 14 15]
[16 17 18 19]
[20 21 22 23]]]
.flatten()将多维数组展开成一维数组
数组和数字计算时,数组中的每一个数字都要进行计算
numpy数组除以零只会warning,不会报错
数组计算,是对应位置的数字进行计算
如果某一维形状相同,依照广播原则计算
如果无论行还是列都不相等,无法进行数组间的计算
三维数组和二维数组计算时,看三维数组形状的后两个数字和二位数组的形状
numpy中转置数组:
np.transpose()
np.swapaxes()
numpy的索引和切片:
n1 = np.array(range(24)).reshape((4, 6))
print(n1)
[[ 0 1 2 3 4 5]
[ 6 7 8 9 10 11]
[12 13 14 15 16 17]
[18 19 20 21 22 23]]
# 取多行,连续
print(n1[1:3])
[[ 6 7 8 9 10 11]
[12 13 14 15 16 17]]
# 取多行,不连续
print(n1[::2])
[[ 0 1 2 3 4 5]
[12 13 14 15 16 17]]
# 另一种取多行的方法
print(n1[[0, 1, 3]])
[[ 0 1 2 3 4 5]
[ 6 7 8 9 10 11]
[18 19 20 21 22 23]]
# 取列
# 取列
print(n1[:,1:3])
[[ 1 2]
[ 7 8]
[13 14]
[19 20]]
# 取不连续的列
print(n1[:,[0, 2, 4, 5]])
[[ 0 2 4 5]
[ 6 8 10 11]
[12 14 16 17]
[18 20 22 23]]
# 取多行多列
print(n1[0:2, 1:4])
[[1 2 3]
[7 8 9]]
# 取点,方括号里的数字一一对应,取值
print(n1[[0, 2], [1, 4]])
[ 1 16]
numpy数值的修改:
# 修改个别数值
n1 = np.array(range(24)).reshape((4, 6))
print(n1)
n1[[0, 2], [1, 4]] = 71, 999
print(n1)
[[ 0 1 2 3 4 5]
[ 6 7 8 9 10 11]
[12 13 14 15 16 17]
[18 19 20 21 22 23]]
[[ 0 71 2 3 4 5]
[ 6 7 8 9 10 11]
[ 12 13 14 15 999 17]
[ 18 19 20 21 22 23]]
# 将小于15的值改为1
n1 = np.array(range(24)).reshape((4, 6))
print(n1)
n1[n1 < 15] = 1
print(n1)
[[ 0 1 2 3 4 5]
[ 6 7 8 9 10 11]
[12 13 14 15 16 17]
[18 19 20 21 22 23]]
[[ 1 1 1 1 1 1]
[ 1 1 1 1 1 1]
[ 1 1 1 15 16 17]
[18 19 20 21 22 23]]
numpy中三元运算符
# .where()的用法类似于if else,第一个逗号前是判断语句,第一个逗号后是判断为True的情况怎么修改,最后一个参数是判断为False的情况怎么修改
n1 = np.array(range(24)).reshape((4, 6))
print(n1)
n1 = np.where(n1 < 15, 1, 2)
print(n1)
[[ 0 1 2 3 4 5]
[ 6 7 8 9 10 11]
[12 13 14 15 16 17]
[18 19 20 21 22 23]]
[[1 1 1 1 1 1]
[1 1 1 1 1 1]
[1 1 1 2 2 2]
[2 2 2 2 2 2]]
numpy中的clip()裁剪:
# clip()一共需要两个参数,将小于第一个参数的值替换成第一个参数,将大于第二个参数的值替换成第二个参数,NAN不会被替换
n1 = np.array(range(24)).reshape((4, 6))
print(n1)
n1 = n1.clip(10, 15)
print(n1)
[[ 0 1 2 3 4 5]
[ 6 7 8 9 10 11]
[12 13 14 15 16 17]
[18 19 20 21 22 23]]
[[10 10 10 10 10 10]
[10 10 10 10 10 11]
[12 13 14 15 15 15]
[15 15 15 15 15 15]]
将numpy数组中的值改为nan:
n1 = n1.astype(float)
n1[0, 3] = np.nan
print(n1)
[[ 0. 1. 2. nan 4. 5.]
[ 6. 7. 8. 9. 10. 11.]
[12. 13. 14. 15. 16. 17.]
[18. 19. 20. 21. 22. 23.]]
数组的拼接:
n1 = np.array(range(24)).reshape((4, 6))
n2 = np.array(range(25, 49)).reshape((4, 6))
# 竖直拼接
n3 = np.vstack((n1, n2))
print(n1)
print('*'*20)
print(n2)
print('*'*20)
print(n3)
[[ 0 1 2 3 4 5]
[ 6 7 8 9 10 11]
[12 13 14 15 16 17]
[18 19 20 21 22 23]]
********************
[[25 26 27 28 29 30]
[31 32 33 34 35 36]
[37 38 39 40 41 42]
[43 44 45 46 47 48]]
********************
[[ 0 1 2 3 4 5]
[ 6 7 8 9 10 11]
[12 13 14 15 16 17]
[18 19 20 21 22 23]
[25 26 27 28 29 30]
[31 32 33 34 35 36]
[37 38 39 40 41 42]
[43 44 45 46 47 48]]
# 水平拼接
n3 = np.hstack((n1, n2))
print(n1)
print('*'*20)
print(n2)
print('*'*20)
print(n3)
[[ 0 1 2 3 4 5]
[ 6 7 8 9 10 11]
[12 13 14 15 16 17]
[18 19 20 21 22 23]]
********************
[[25 26 27 28 29 30]
[31 32 33 34 35 36]
[37 38 39 40 41 42]
[43 44 45 46 47 48]]
********************
[[ 0 1 2 3 4 5 25 26 27 28 29 30]
[ 6 7 8 9 10 11 31 32 33 34 35 36]
[12 13 14 15 16 17 37 38 39 40 41 42]
[18 19 20 21 22 23 43 44 45 46 47 48]]
数组的行列交换:
# 行交换
n1[[1, 2],:] = n1[[2, 1],:]
# 列交换
n1[:,[1, 3]] = n1[:,[3, 1]]
练习:
# 构造全为0和1的数据列
zero_data = np.zeros((n1.shape[0], 1)) # shape[0]表示所有行
one_data = np.ones((n2.shape[0], 1)) # shape[0]表示所有行
print(zero_data)
print(one_data)
[[0.]
[0.]
[0.]
[0.]]
[[1.]
[1.]
[1.]
[1.]]
# 将全为0或1的列拼接进去
n1 = np.hstack((n1, zero_data))
n2 = np.hstack((n2, one_data))
print(n1)
print('*'*20)
print(n2)
n3 = np.vstack((n1, n2))
print('*'*20)
print(n3)
[[ 0. 1. 2. 3. 4. 5. 0.]
[ 6. 7. 8. 9. 10. 11. 0.]
[12. 13. 14. 15. 16. 17. 0.]
[18. 19. 20. 21. 22. 23. 0.]]
********************
[[25. 26. 27. 28. 29. 30. 1.]
[31. 32. 33. 34. 35. 36. 1.]
[37. 38. 39. 40. 41. 42. 1.]
[43. 44. 45. 46. 47. 48. 1.]]
********************
[[ 0. 1. 2. 3. 4. 5. 0.]
[ 6. 7. 8. 9. 10. 11. 0.]
[12. 13. 14. 15. 16. 17. 0.]
[18. 19. 20. 21. 22. 23. 0.]
[25. 26. 27. 28. 29. 30. 1.]
[31. 32. 33. 34. 35. 36. 1.]
[37. 38. 39. 40. 41. 42. 1.]
[43. 44. 45. 46. 47. 48. 1.]]
numpy获取极值的位置:
# axis=0获取的是每一列的极值的行数, axis=1获取的是每一行的极值的列数
np.argmax(n1, axis=0)
np.argmin(n1, axis=1)
更多方法:
# 创建一个对角线为1的方阵,括号里填参数,该参数设置行和列的数量
np.eye()
np.random用来生成随机数组
# 生成由10到30的随机整数组成的四行五列的数组
n1 = np.random.randint(10, 30, (4, 5))
numpy常用统计函数:
.sum()求和
.mean()平均值
.median()中间值
.max()最大值
.min()最小值
.ptp()极值,最大值最小值的差
.std()标准差
将nan替换成均值:
n1 = np.random.randint(10, 30, (4, 5)).astype(float)
n1[[1, 3], [2, 1]] = np.nan
print(n1)
# 替换nan
def fill_nan(n1):
for i in range(n1.shape[1]): # 遍历每一列
temp_col = n1[:, i] # 当前的一列
nan_num = np.count_nonzero(temp_col != temp_col)
if nan_num != 0:
not_nan_col = temp_col[temp_col == temp_col] # 当前一列不为nan的array
temp_col[np.isnan(temp_col)] = not_nan_col.mean().round(1) # 把nan赋值为不为nan的均值
return n1
print('*' * 20)
n2 = fill_nan(n1)
print(n2)
[[27. 20. 11. 23. 19.]
[21. 17. nan 18. 13.]
[17. 11. 25. 28. 16.]
[22. nan 27. 22. 15.]]
********************
[[27. 20. 11. 23. 19.]
[21. 17. 21. 18. 13.]
[17. 11. 25. 28. 16.]
[22. 16. 27. 22. 15.]]