np
创建array
import numpy as np
array = np.array([[1,2,3],[2,3,4]])
print(array)
print(array.shape) # 几行几列(2,3)
print(array.size) # 共有多少个元素 2*3=6
a = np.zeros((3,4)) # 3行4列的全为零的矩阵
print(a)
b = np.ones((3,2)) # 3行3列全为1的矩阵
print(b)
c = np.arange(10,20,2)
print(c) # [10 12 14 16 18] 10<=x<20 步长是2的一维矩阵
c = np.arange(12)
c = np.arange(3,15).reshap((3,4))
d = np.linspace(1,10,5) # [ 1. 3.25 5.5 7.75 10. ]
d = np.linspace(1,10,4)
# 从1到10的分四段,reshape塑性为两行两列的。
e= d.reshape((2,2))
'''
d [ 1. 4. 7. 10.]
e [[ 1. 4.]
[ 7. 10.]]
'''
基础运算1
import numpy as np
加减
a = np.arange(4)
b = np.array([10,20,30,40])
print(a,b)
print(b-a)
print(b+a)
'''
[0 1 2 3] [10 20 30 40]
[10 19 28 37]
[10 21 32 43]
'''
print(a**2) # [0 1 4 9] # 平方
c = 10*np.sin(a) # a的正弦值乘10
print(c) # [0. 8.41470985 9.09297427 1.41120008]
a = np.array([[1,2],[0,1]])
b = np.arange(4).reshape((2,2))
print(a,b)
c = a*b # 逐个相城
c_dot = np.dot(a,b) # 矩阵乘法
c_dot2 = a.dot(b) # 因为a是np,可以直接dot
d = np.random.random((3,2))
print(d)
print(np.sum(d))
print(np.max(d))
print(np.min(d))
'''
[[0.63954103 0.80300307]
[0.55433078 0.01537057]
[0.06328118 0.57562698]]
2.651153615216529
0.8030030710165886
0.015370571545231249
'''
# axis = 1 zai 列
# axis = 0 在行中
print(np.sum(d,axis=0)) # 在行中找最大值
print(np.max(d,axis=1)) # 在列中找最大值
print(np.min(d,axis=0))
基础运算2
import numpy as np
a = np.arange(2,14).reshape((3,4))
print(a)
'''
2-13的 大于等于2,小于14;3行4列的一个矩阵
[[ 2 3 4 5]
[ 6 7 8 9]
[10 11 12 13]]
'''
'''
# 0行,1列
最小值的索引
最大值的索引
平均值
平均值
中位数
累加
累差
'''
print(np.argmin(a)) # 最小值的索引
print(np.argmax(a)) # 最大值的索引
print(a.mean()) # 平均值
print(np.average(a)) # 平均值
print(np.cumsum(a)) # 第一个是第一个的值,第二个是第一个+第二个的值,第三个是1+2+3的值
print(np.diff(a)) # 累差 第一个:2-1 第二个:3-2,比如四列的变成3列的
print(np.nonzero(a)) # 求非零的数
print(np.sort(a)) # 排序
print(np.transpose(a)) # 矩阵的反向:行变列,列变行
print(a.T) # 矩阵的反向 ,例如矩阵的乘法会用到矩阵的反向
print(np.clip(a,5,9)) # 矩阵中,5<= i <=9的数值保持不变,小于5的都改成5,大于9的都改成9
np的索引
import numpy as np
一维🎄
a = np.arange(3,15)
print(a)
# [ 3 4 5 6 7 8 9 10 11 12 13 14]
print(a[3]) # 6
二维🎀🎀
b = np.arange(3,15).reshape((3,4))
print(b[2])
print(b)
# [11 12 13 14] 输出第二行
'''
[[ 3 4 5 6]
[ 7 8 9 10]
[11 12 13 14]]
'''
# 输出8
print(b[1][1]) # 8
print([1,1]) # 8
#两种不同的表达形式,功能一样
#表示一行或者一列
print(b[2,:])# 输出第二行的所有数据
print(b[:,1])#
print(b[1,1:2])
# [11 12 13 14]
# [ 4 8 12]
# 1:2 1<= v <2,结果是8
# 已知上述知识点,用for获得每个值
for row in b:
print(row)
# 打印每一行
for column in b.T:
print(column)
# 打印每一列
# print(np.transpose(b)) # 矩阵的反向:行变列,列变行
# print(b.T) # 矩阵的反向 ,例如矩阵的乘法会用到矩阵的反向
for item in b.flat:
print(item)
# 打印每一个项,b.flat:转成一维的数组
print(b.flat) # 一个一维的迭代器。print(item)打印出下面的
# 3
# 4
# 5
# 6
# 7
# 8
# 9
# 10
# 11
# 12
# 13
np的合并
import numpy as np
a = np.array([1,1,1])
b = np.array([2,2,2])
print(a)
print(b,b.dtype)
# 上下合并a,b
c = np.vstack((a,b))
print(c)
print(a.shape,c.shape)
'''
[1 1 1]
[2 2 2] int32
[[1 1 1]
[2 2 2]]
(3,) (2, 3)
'''
# 左右合并
d = np.hstack((a,b))
print(d)
print(a.shape,d.shape)
'''
a,b是一维的序列
[1 1 1 2 2 2]
(3,) (6,)
'''
# 横向变纵向
print(a)
print(a[:,np.newaxis])
print(a[np.newaxis,:])
'''
[1 1 1]
[[1]
[1]
[1]]
[[1 1 1]]
'''
e = a[:,np.newaxis]
f = b[:,np.newaxis]
j = np.hstack((e,f))
print(j)
'''
hstack:左右合并
vstack:上下合并
[[1 2]
[1 2]
[1 2]]
'''
concatenate方式的合并✨✨
# 多个array的合并
# axis = 0 上下合并
# axis = 1 左右合并
print(e)
print(f)
h = np.concatenate((e,f,e,f),axis=1)
print(h)
'''
[[1 2 1 2]
[1 2 1 2]
[1 2 1 2]]
'''
np的分割
import numpy as np
a = np.arange(12).reshape((3,4))
print(a)
# split(被分割对象,分割成几块,按列或行分割),等量分割,不等量会报错
print(np.split(a,2,axis=1))
# np.array_split 不等量分割
print(np.array_split(a,3,axis=1))
# 横向纵向分割
# v上下分割 纵向
# h左右分割 横向
print(np.vsplit(a,3))
print(np.hsplit(a,2))
'''
[[ 0 1 2 3]
[ 4 5 6 7]
[ 8 9 10 11]]
[array([[0, 1],
[4, 5],
[8, 9]]), array([[ 2, 3],
[ 6, 7],
[10, 11]])]
[array([[0, 1],
[4, 5],
[8, 9]]), array([[ 2],
[ 6],
[10]]), array([[ 3],
[ 7],
[11]])]
[array([[0, 1, 2, 3]]), array([[4, 5, 6, 7]]), array([[ 8, 9, 10, 11]])]
[array([[0, 1],
[4, 5],
[8, 9]]), array([[ 2, 3],
**[ 6, 7],
[10, 11]])]
'''
np的拷贝
这个是拷贝,保证b的值不随a的改变而改变
b=a.copy()
这种方式,b不会受a值
pd
pd的基本介绍
import numpy as np
import pandas as pd
# pd一维的
s = pd.Series([1,2,3,4,5,6,np.nan])
print(s)
'''
索引 值
0 1.0
1 2.0
2 3.0
3 4.0
4 5.0
5 6.0
6 NaN
dtype: float64 类型
'''
# pd二维的
dates = pd.date_range('20200101',periods=6)
print(dates)
'''
DatetimeIndex(['2020-01-01', '2020-01-02', '2020-01-03', '2020-01-04',
'2020-01-05', '2020-01-06'],
dtype='datetime64[ns]', freq='D')
'''
df = pd.DataFrame(np.random.randn(6,4),index=dates,columns=['A','B','C','D'])
print(df)
'''
6行4列
指定index 和 columns = ['','']
A B C D
2020-01-01 -1.746232 0.392208 -0.677537 -0.458761
2020-01-02 1.539813 0.262916 0.845436 -1.235884
2020-01-03 -1.602680 -0.133153 1.083760 -0.218388
2020-01-04 0.201194 -0.064716 -0.745802 0.164496
2020-01-05 -0.297246 0.755802 -0.564826 0.036111
2020-01-06 -1.223427 -1.266186 -0.389218 -0.756004
'''
df1 = pd.DataFrame(np.arange(12).reshape((3,4)))
print(df1)
'''
没有指定index和columns,默认从0开始递增
0 1 2 3
0 0 1 2 3
1 4 5 6 7
2 8 9 10 11
'''
# 属性不用加()
# index
# columns
# values
# dtypes
# describe()
df2 = pd.DataFrame({'A':3,'B':pd.Timestamp('20201120'),'C':pd.Series(1,index=list(range(4))),'D':'UF','E':np.array([3]*4)})
print(df2)
'''
A B C D E
0 3 2020-11-20 1 UF 3
1 3 2020-11-20 1 UF 3
2 3 2020-11-20 1 UF 3
3 3 2020-11-20 1 UF 3
'''
print(df2.values)
print(df2.index)
print(df2.columns)
print(df2.describe()) # 只会计算数值类型的,字符串,日期的忽略了
# describe
# A C E
# count 4.0 4.0 4.0
# mean 3.0 1.0 3.0
# std 0.0 0.0 0.0
# min 3.0 1.0 3.0
# 25% 3.0 1.0 3.0
# 50% 3.0 1.0 3.0
# 75% 3.0 1.0 3.0
# max 3.0 1.0 3.0
# 排序
print(df2.sort_index(axis=0,ascending=False)) # 行倒叙排列
print(df2.sort_index(axis=1,ascending=False)) # 列倒叙排列
print(df2.sort_values(by='E')) # 列E排序