Python数据科学库第三天

最新推荐文章于 2024-07-12 16:16:27 发布

elly_yang

最新推荐文章于 2024-07-12 16:16:27 发布

阅读量106

点赞数

分类专栏： Python数据科学库文章标签： python numpy 数据分析

本文链接：https://blog.csdn.net/elly_yang/article/details/127694311

版权

Python数据科学库专栏收录该内容

8 篇文章 0 订阅

订阅专栏

numpy数组：

import numpy as np
# .array用于创建数组
num = np.array([1, 2, 3, 4, 5])
# .arange()效果和.array(range())一样
num1 = np.arange(10)
print(num1)

[0 1 2 3 4 5 6 7 8 9]

# .dtype用来返回数据类型
print(num1.dtype)

int32

# 设置数据类型
num2 = np.array(range(10), dtype=float)
print(num2)
print(num2.dtype)

# 设置数据的boolean类型
num3 = np.array([1, 1, 0, 1, 0, 0], dtype=bool)
print(num3)
print(num3.dtype)

[ True  True False  True False False]
bool

# 调整数据类型
num4 = num3.astype('int8')
print(num4)
print(num4.dtype)

[1 1 0 1 0 0]
int8

# numpy中的小数
num5 = np.array([random.random() for i in range(10)])
print(num5)
print(num5.dtype)

[0.6147291  0.59438181 0.12209177 0.73512805 0.82820976 0.83148056
 0.98489754 0.01195012 0.98115209 0.22502687]
float64

# 取两位小数
num6 = np.round(num5, 2)
print(num6)
print(num6.dtype)

[0.16 0.37 0.97 0.07 0.3  0.13 0.38 0.28 0.61 0.03]
float64

数组的形状：

.shape()用于返回数组的形状

如果array只有一行，shape返回array包含的数的个数
n1 = np.array(range(12))
print(n1.shape)

(12,) # 一维数组

如果array有多行，shape返回行和列
n2 = np.array([[1, 2, 3], [4, 5, 6], [7, 8, 9]])
print(n2.shape)

(3, 3) # 二维数组

n3 = np.array([[[1, 2, 3], [4, 5, 6]], [[6, 5, 4], [3, 2, 1]]])
print(n3.shape)

(2, 2, 3) #三维数组

.reshape()重新设置数组的形状

n1 = np.array(range(12))
n2 = n1.reshape(3, 4)
print(n2)

[[ 0  1  2  3]
 [ 4  5  6  7]
 [ 8  9 10 11]]

n1 = np.array(range(24))
n3 = n1.reshape(2, 3, 4)
print(n3)


[[[ 0  1  2  3]
  [ 4  5  6  7]
  [ 8  9 10 11]]

 [[12 13 14 15]
  [16 17 18 19]
  [20 21 22 23]]]

.flatten()将多维数组展开成一维数组

数组和数字计算时，数组中的每一个数字都要进行计算
numpy数组除以零只会warning，不会报错
数组计算，是对应位置的数字进行计算
如果某一维形状相同，依照广播原则计算
如果无论行还是列都不相等，无法进行数组间的计算
三维数组和二维数组计算时，看三维数组形状的后两个数字和二位数组的形状

numpy中转置数组：

np.transpose()
np.swapaxes()

numpy的索引和切片：

n1 = np.array(range(24)).reshape((4, 6))
print(n1)

[[ 0  1  2  3  4  5]
 [ 6  7  8  9 10 11]
 [12 13 14 15 16 17]
 [18 19 20 21 22 23]]
# 取多行，连续
print(n1[1:3])

[[ 6  7  8  9 10 11]
 [12 13 14 15 16 17]]
# 取多行，不连续
print(n1[::2])

[[ 0  1  2  3  4  5]
 [12 13 14 15 16 17]]
 # 另一种取多行的方法
 print(n1[[0, 1, 3]])

[[ 0  1  2  3  4  5]
 [ 6  7  8  9 10 11]
 [18 19 20 21 22 23]]

# 取列
# 取列
print(n1[:,1:3])

[[ 1  2]
 [ 7  8]
 [13 14]
 [19 20]]
# 取不连续的列
print(n1[:,[0, 2, 4, 5]])

[[ 0  2  4  5]
 [ 6  8 10 11]
 [12 14 16 17]
 [18 20 22 23]]

# 取多行多列
print(n1[0:2, 1:4])

[[1 2 3]
 [7 8 9]]

# 取点，方括号里的数字一一对应，取值
print(n1[[0, 2], [1, 4]])

[ 1 16]

numpy数值的修改：

# 修改个别数值
n1 = np.array(range(24)).reshape((4, 6))
print(n1)

n1[[0, 2], [1, 4]] = 71, 999
print(n1)

[[ 0  1  2  3  4  5]
 [ 6  7  8  9 10 11]
 [12 13 14 15 16 17]
 [18 19 20 21 22 23]]
[[  0  71   2   3   4   5]
 [  6   7   8   9  10  11]
 [ 12  13  14  15 999  17]
 [ 18  19  20  21  22  23]]

# 将小于15的值改为1
n1 = np.array(range(24)).reshape((4, 6))
print(n1)

n1[n1 < 15] = 1
print(n1)

[[ 0  1  2  3  4  5]
 [ 6  7  8  9 10 11]
 [12 13 14 15 16 17]
 [18 19 20 21 22 23]]
[[ 1  1  1  1  1  1]
 [ 1  1  1  1  1  1]
 [ 1  1  1 15 16 17]
 [18 19 20 21 22 23]]

numpy中三元运算符

# .where()的用法类似于if else，第一个逗号前是判断语句，第一个逗号后是判断为True的情况怎么修改，最后一个参数是判断为False的情况怎么修改
n1 = np.array(range(24)).reshape((4, 6))
print(n1)
n1 = np.where(n1 < 15, 1, 2)
print(n1)

[[ 0  1  2  3  4  5]
 [ 6  7  8  9 10 11]
 [12 13 14 15 16 17]
 [18 19 20 21 22 23]]
[[1 1 1 1 1 1]
 [1 1 1 1 1 1]
 [1 1 1 2 2 2]
 [2 2 2 2 2 2]]

numpy中的clip()裁剪：

# clip()一共需要两个参数，将小于第一个参数的值替换成第一个参数，将大于第二个参数的值替换成第二个参数，NAN不会被替换
n1 = np.array(range(24)).reshape((4, 6))
print(n1)
n1 = n1.clip(10, 15)
print(n1)

[[ 0  1  2  3  4  5]
 [ 6  7  8  9 10 11]
 [12 13 14 15 16 17]
 [18 19 20 21 22 23]]
[[10 10 10 10 10 10]
 [10 10 10 10 10 11]
 [12 13 14 15 15 15]
 [15 15 15 15 15 15]]

将numpy数组中的值改为nan：

n1 = n1.astype(float)
n1[0, 3] = np.nan
print(n1)

[[ 0.  1.  2. nan  4.  5.]
 [ 6.  7.  8.  9. 10. 11.]
 [12. 13. 14. 15. 16. 17.]
 [18. 19. 20. 21. 22. 23.]]

数组的拼接：

n1 = np.array(range(24)).reshape((4, 6))
n2 = np.array(range(25, 49)).reshape((4, 6))
# 竖直拼接
n3 = np.vstack((n1, n2))
print(n1)
print('*'*20)
print(n2)
print('*'*20)
print(n3)

[[ 0  1  2  3  4  5]
 [ 6  7  8  9 10 11]
 [12 13 14 15 16 17]
 [18 19 20 21 22 23]]
********************
[[25 26 27 28 29 30]
 [31 32 33 34 35 36]
 [37 38 39 40 41 42]
 [43 44 45 46 47 48]]
********************
[[ 0  1  2  3  4  5]
 [ 6  7  8  9 10 11]
 [12 13 14 15 16 17]
 [18 19 20 21 22 23]
 [25 26 27 28 29 30]
 [31 32 33 34 35 36]
 [37 38 39 40 41 42]
 [43 44 45 46 47 48]]

# 水平拼接
n3 = np.hstack((n1, n2))
print(n1)
print('*'*20)
print(n2)
print('*'*20)
print(n3)

[[ 0  1  2  3  4  5]
 [ 6  7  8  9 10 11]
 [12 13 14 15 16 17]
 [18 19 20 21 22 23]]
********************
[[25 26 27 28 29 30]
 [31 32 33 34 35 36]
 [37 38 39 40 41 42]
 [43 44 45 46 47 48]]
********************
[[ 0  1  2  3  4  5 25 26 27 28 29 30]
 [ 6  7  8  9 10 11 31 32 33 34 35 36]
 [12 13 14 15 16 17 37 38 39 40 41 42]
 [18 19 20 21 22 23 43 44 45 46 47 48]]

数组的行列交换：

# 行交换
n1[[1, 2],:] = n1[[2, 1],:]

# 列交换
n1[:,[1, 3]] = n1[:,[3, 1]]

练习：

# 构造全为0和1的数据列
zero_data = np.zeros((n1.shape[0], 1)) # shape[0]表示所有行
one_data = np.ones((n2.shape[0], 1)) # shape[0]表示所有行
print(zero_data)
print(one_data)

[[0.]
 [0.]
 [0.]
 [0.]]
[[1.]
 [1.]
 [1.]
 [1.]] 

# 将全为0或1的列拼接进去
n1 = np.hstack((n1, zero_data))
n2 = np.hstack((n2, one_data))
print(n1)
print('*'*20)
print(n2)
n3 = np.vstack((n1, n2))
print('*'*20)
print(n3)

[[ 0.  1.  2.  3.  4.  5.  0.]
 [ 6.  7.  8.  9. 10. 11.  0.]
 [12. 13. 14. 15. 16. 17.  0.]
 [18. 19. 20. 21. 22. 23.  0.]]
********************
[[25. 26. 27. 28. 29. 30.  1.]
 [31. 32. 33. 34. 35. 36.  1.]
 [37. 38. 39. 40. 41. 42.  1.]
 [43. 44. 45. 46. 47. 48.  1.]]
********************
[[ 0.  1.  2.  3.  4.  5.  0.]
 [ 6.  7.  8.  9. 10. 11.  0.]
 [12. 13. 14. 15. 16. 17.  0.]
 [18. 19. 20. 21. 22. 23.  0.]
 [25. 26. 27. 28. 29. 30.  1.]
 [31. 32. 33. 34. 35. 36.  1.]
 [37. 38. 39. 40. 41. 42.  1.]
 [43. 44. 45. 46. 47. 48.  1.]]

numpy获取极值的位置：

# axis=0获取的是每一列的极值的行数， axis=1获取的是每一行的极值的列数
np.argmax(n1, axis=0)
np.argmin(n1, axis=1)

更多方法：

# 创建一个对角线为1的方阵,括号里填参数，该参数设置行和列的数量
np.eye()
np.random用来生成随机数组

# 生成由10到30的随机整数组成的四行五列的数组
n1 = np.random.randint(10, 30, (4, 5))

numpy常用统计函数：

.sum()求和
.mean()平均值
.median()中间值
.max()最大值
.min()最小值
.ptp()极值，最大值最小值的差
.std()标准差

将nan替换成均值：

n1 = np.random.randint(10, 30, (4, 5)).astype(float)
n1[[1, 3], [2, 1]] = np.nan
print(n1)

# 替换nan
def fill_nan(n1):
    for i in range(n1.shape[1]):  # 遍历每一列
        temp_col = n1[:, i]  # 当前的一列
        nan_num = np.count_nonzero(temp_col != temp_col)
        if nan_num != 0:
            not_nan_col = temp_col[temp_col == temp_col]  # 当前一列不为nan的array
            temp_col[np.isnan(temp_col)] = not_nan_col.mean().round(1)  # 把nan赋值为不为nan的均值
    return n1

print('*' * 20)

n2 = fill_nan(n1)
print(n2)

[[27. 20. 11. 23. 19.]
 [21. 17. nan 18. 13.]
 [17. 11. 25. 28. 16.]
 [22. nan 27. 22. 15.]]
********************
[[27. 20. 11. 23. 19.]
 [21. 17. 21. 18. 13.]
 [17. 11. 25. 28. 16.]
 [22. 16. 27. 22. 15.]]