np and pd

最新推荐文章于 2023-09-16 17:32:02 发布

南风29

最新推荐文章于 2023-09-16 17:32:02 发布

阅读量511

点赞数

本文链接：https://blog.csdn.net/sinat_37931576/article/details/109602506

版权

np and pd

np
pd
- pd的基本介绍
- pd选择数据

np

创建array

import numpy as np

array = np.array([[1,2,3],[2,3,4]])
print(array)
print(array.shape) # 几行几列（2,3）
print(array.size) # 共有多少个元素 2*3=6

a = np.zeros((3,4)) # 3行4列的全为零的矩阵
print(a)

b = np.ones((3,2)) # 3行3列全为1的矩阵
print(b)

c = np.arange(10,20,2)
print(c) # [10 12 14 16 18] 10<=x<20 步长是2的一维矩阵
c = np.arange(12)
c = np.arange(3,15).reshap((3,4))

d = np.linspace(1,10,5) # [ 1.    3.25  5.5   7.75 10.  ]
d = np.linspace(1,10,4)
# 从1到10的分四段，reshape塑性为两行两列的。
e= d.reshape((2,2))
'''
d [ 1.  4.  7. 10.]
e [[ 1.  4.]
 [ 7. 10.]]
'''

基础运算1

import numpy as np

加减
a = np.arange(4)
b = np.array([10,20,30,40])

print(a,b)
print(b-a)
print(b+a)

'''
[0 1 2 3] [10 20 30 40]
[10 19 28 37]
[10 21 32 43]
'''

print(a**2) # [0 1 4 9] # 平方

c = 10*np.sin(a) # a的正弦值乘10
print(c) # [0.         8.41470985 9.09297427 1.41120008]

a = np.array([[1,2],[0,1]])
b = np.arange(4).reshape((2,2))
print(a,b)
c = a*b # 逐个相城
c_dot = np.dot(a,b) # 矩阵乘法
c_dot2 = a.dot(b) # 因为a是np，可以直接dot

d = np.random.random((3,2))
print(d)
print(np.sum(d))
print(np.max(d))
print(np.min(d))

'''
[[0.63954103 0.80300307]
 [0.55433078 0.01537057]
 [0.06328118 0.57562698]]
2.651153615216529
0.8030030710165886
0.015370571545231249
'''
# axis = 1 zai 列
# axis = 0  在行中
print(np.sum(d,axis=0)) # 在行中找最大值
print(np.max(d,axis=1)) # 在列中找最大值
print(np.min(d,axis=0))

基础运算2

import numpy as np

a = np.arange(2,14).reshape((3,4))
print(a)

'''
2-13的 大于等于2，小于14；3行4列的一个矩阵
[[ 2  3  4  5]
 [ 6  7  8  9]
 [10 11 12 13]]
'''

'''
# 0行，1列
最小值的索引
最大值的索引
平均值
平均值
中位数

累加
累差
'''
print(np.argmin(a)) # 最小值的索引
print(np.argmax(a)) # 最大值的索引
print(a.mean()) # 平均值
print(np.average(a)) # 平均值

print(np.cumsum(a)) # 第一个是第一个的值，第二个是第一个+第二个的值，第三个是1+2+3的值
print(np.diff(a)) # 累差 第一个：2-1 第二个：3-2，比如四列的变成3列的
print(np.nonzero(a)) # 求非零的数
print(np.sort(a)) # 排序
print(np.transpose(a)) # 矩阵的反向：行变列，列变行
print(a.T) # 矩阵的反向 ，例如矩阵的乘法会用到矩阵的反向
print(np.clip(a,5,9)) # 矩阵中，5<= i <=9的数值保持不变，小于5的都改成5，大于9的都改成9

np的索引

import numpy as np
一维🎄
a = np.arange(3,15)
print(a)
# [ 3  4  5  6  7  8  9 10 11 12 13 14]
print(a[3]) # 6

二维🎀🎀
b = np.arange(3,15).reshape((3,4))
print(b[2])
print(b)
# [11 12 13 14] 输出第二行

'''
[[ 3  4  5  6]
 [ 7  8  9 10]
 [11 12 13 14]]
'''

# 输出8
print(b[1][1]) # 8
print([1,1]) # 8
#两种不同的表达形式，功能一样


#表示一行或者一列
print(b[2,:])# 输出第二行的所有数据
print(b[:,1])#
print(b[1,1:2])
# [11 12 13 14]
# [ 4  8 12]
# 1:2 1<= v <2,结果是8

# 已知上述知识点，用for获得每个值
for row in b:
    print(row)
# 打印每一行

for column in b.T:
    print(column)
# 打印每一列
# print(np.transpose(b)) # 矩阵的反向：行变列，列变行
# print(b.T) # 矩阵的反向 ，例如矩阵的乘法会用到矩阵的反向

for item in b.flat:
    print(item)
# 打印每一个项，b.flat:转成一维的数组
print(b.flat) # 一个一维的迭代器。print（item）打印出下面的
# 3
# 4
# 5
# 6
# 7
# 8
# 9
# 10
# 11
# 12
# 13

np的合并

import numpy as np
a = np.array([1,1,1])
b = np.array([2,2,2])
print(a)
print(b,b.dtype)
# 上下合并a,b
c = np.vstack((a,b))
print(c)
print(a.shape,c.shape)

'''
[1 1 1]
[2 2 2] int32

[[1 1 1]
 [2 2 2]]
 
 (3,) (2, 3)
'''

# 左右合并
d = np.hstack((a,b))
print(d)
print(a.shape,d.shape)
'''
a,b是一维的序列
[1 1 1 2 2 2]
(3,) (6,)
'''

# 横向变纵向
print(a)
print(a[:,np.newaxis])
print(a[np.newaxis,:])
'''
[1 1 1]

[[1]
 [1]
 [1]]
 
 [[1 1 1]]
'''

e = a[:,np.newaxis]
f = b[:,np.newaxis]
j = np.hstack((e,f))
print(j)
'''
hstack:左右合并
vstack:上下合并
[[1 2]
 [1 2]
 [1 2]]
'''

concatenate方式的合并✨✨
# 多个array的合并
# axis = 0 上下合并
# axis = 1 左右合并
print(e)
print(f)
h = np.concatenate((e,f,e,f),axis=1)
print(h)
'''
[[1 2 1 2]
 [1 2 1 2]
 [1 2 1 2]]
'''

np的分割

import numpy as np

a = np.arange(12).reshape((3,4))
print(a)
# split(被分割对象，分割成几块，按列或行分割)，等量分割，不等量会报错
print(np.split(a,2,axis=1))

# np.array_split 不等量分割
print(np.array_split(a,3,axis=1))

# 横向纵向分割
# v上下分割 纵向
# h左右分割 横向
print(np.vsplit(a,3))
print(np.hsplit(a,2))

'''
[[ 0  1  2  3]
 [ 4  5  6  7]
 [ 8  9 10 11]]
 
[array([[0, 1],
       [4, 5],
       [8, 9]]), array([[ 2,  3],
       [ 6,  7],
       [10, 11]])]

[array([[0, 1],
       [4, 5],
       [8, 9]]), array([[ 2],
       [ 6],
       [10]]), array([[ 3],
       [ 7],
       [11]])]

[array([[0, 1, 2, 3]]), array([[4, 5, 6, 7]]), array([[ 8,  9, 10, 11]])]

[array([[0, 1],
       [4, 5],
       [8, 9]]), array([[ 2,  3],
       **[ 6,  7],
       [10, 11]])]
'''

np的拷贝

这个是拷贝，保证b的值不随a的改变而改变
在这里插入图片描述
b=a.copy()
这种方式，b不会受a值

pd

pd的基本介绍

import numpy as np
import pandas as pd

# pd一维的
s = pd.Series([1,2,3,4,5,6,np.nan])
print(s)

'''
索引   值
0    1.0
1    2.0
2    3.0
3    4.0
4    5.0
5    6.0
6    NaN
dtype: float64 类型
'''
# pd二维的
dates = pd.date_range('20200101',periods=6)
print(dates)
'''
DatetimeIndex(['2020-01-01', '2020-01-02', '2020-01-03', '2020-01-04',
               '2020-01-05', '2020-01-06'],
              dtype='datetime64[ns]', freq='D')
'''
df = pd.DataFrame(np.random.randn(6,4),index=dates,columns=['A','B','C','D'])
print(df)
'''
6行4列
指定index 和 columns = ['','']

                   A         B         C         D
2020-01-01 -1.746232  0.392208 -0.677537 -0.458761
2020-01-02  1.539813  0.262916  0.845436 -1.235884
2020-01-03 -1.602680 -0.133153  1.083760 -0.218388
2020-01-04  0.201194 -0.064716 -0.745802  0.164496
2020-01-05 -0.297246  0.755802 -0.564826  0.036111
2020-01-06 -1.223427 -1.266186 -0.389218 -0.756004
'''
df1 = pd.DataFrame(np.arange(12).reshape((3,4)))
print(df1)
'''
没有指定index和columns，默认从0开始递增
   0  1   2   3
0  0  1   2   3
1  4  5   6   7
2  8  9  10  11
'''

# 属性不用加（）
# index
# columns
# values
# dtypes
# describe()

df2 = pd.DataFrame({'A':3,'B':pd.Timestamp('20201120'),'C':pd.Series(1,index=list(range(4))),'D':'UF','E':np.array([3]*4)})
print(df2)
'''
   A          B  C   D  E
0  3 2020-11-20  1  UF  3
1  3 2020-11-20  1  UF  3
2  3 2020-11-20  1  UF  3
3  3 2020-11-20  1  UF  3
'''
print(df2.values)
print(df2.index)
print(df2.columns)
print(df2.describe()) # 只会计算数值类型的，字符串，日期的忽略了

# describe
#          A    C    E
# count  4.0  4.0  4.0
# mean   3.0  1.0  3.0
# std    0.0  0.0  0.0
# min    3.0  1.0  3.0
# 25%    3.0  1.0  3.0
# 50%    3.0  1.0  3.0
# 75%    3.0  1.0  3.0
# max    3.0  1.0  3.0

# 排序
print(df2.sort_index(axis=0,ascending=False)) # 行倒叙排列
print(df2.sort_index(axis=1,ascending=False)) # 列倒叙排列
print(df2.sort_values(by='E')) # 列E排序