数据分析-最常用numpy代码笔记


#numpy笔记:

import numpy as np #为了方便使用numpy 采用np简写

# numpy 的几种属性
array = np.array([[1,2,3],[2,3,4]])
#列表转化为矩阵 print(array) """ array([[1, 2, 3], [2, 3, 4]]) """

print('number of dim:',array.ndim)  # 维度
# number of dim: 2

print('shape :',array.shape)    # 行数和列数
# shape : (2, 3)

print('size:',array.size)   # 元素个数
# size: 6

# Numpy 的创建 array -------------------------->>>>>>>

# array:创建数组
# dtype:指定数据类型
# zeros:创建数据全为0
# ones:创建数据全为1
# empty:创建数据接近0
# arrange:按指定范围创建数据
# linspace:创建线段

a = np.array([2,23,4])  # list 1d
print(a)
# [2 23 4]

# 指定数据 dtype
a = np.array([2,23,4],dtype=np.int)
print(a.dtype)
# int 64
a = np.array([2,23,4],dtype=np.int32)
print(a.dtype)
# int32
a = np.array([2,23,4],dtype=np.float)
print(a.dtype)
# float64
a = np.array([2,23,4],dtype=np.float32)
print(a.dtype)
# float32

# 创建特定数据

a = np.array([[2,23,4],[2,32,4]])  # 2d 矩阵 2行3列
print(a)
"""
[[ 2 23  4]
 [ 2 32  4]]
"""
# 创建全零数组

a = np.zeros((3,4)) # 数据全为0,3行4列,#shape
"""
array([[ 0.,  0.,  0.,  0.],
       [ 0.,  0.,  0.,  0.],
       [ 0.,  0.,  0.,  0.]])
"""
# 创建全一数组, 同时也能指定这些特定数据的 dtype:

a = np.ones((3,4),dtype = np.int)   # 数据为1,3行4列
"""
array([[1, 1, 1, 1],
       [1, 1, 1, 1],
       [1, 1, 1, 1]])
"""
# 创建全空数组, 其实每个值都是接近于零的数:

a = np.empty((3,4)) # 数据为empty,3行4列
"""
array([[  0.00000000e+000,   4.94065646e-324,   9.88131292e-324,
          1.48219694e-323],
       [  1.97626258e-323,   2.47032823e-323,   2.96439388e-323,
          3.45845952e-323],
       [  3.95252517e-323,   4.44659081e-323,   4.94065646e-323,
          5.43472210e-323]])
"""
# 用 arange 创建连续数组:

a = np.arange(10,20,2) # 10-19 的数据,2步长
"""
array([10, 12, 14, 16, 18])
"""
# 使用 reshape 改变数据的形状

a = np.arange(12).reshape((3,4))    # 3行4列,0到11
"""
array([[ 0,  1,  2,  3],
       [ 4,  5,  6,  7],
       [ 8,  9, 10, 11]])
"""
# 用 linspace 创建线段型数据:

a = np.linspace(1,10,20)    # 开始端1,结束端10,且分割成20个数据,生成线段
"""
array([  1.        ,   1.47368421,   1.94736842,   2.42105263,
         2.89473684,   3.36842105,   3.84210526,   4.31578947,
         4.78947368,   5.26315789,   5.73684211,   6.21052632,
         6.68421053,   7.15789474,   7.63157895,   8.10526316,
         8.57894737,   9.05263158,   9.52631579,  10.        ])
"""
# 同样也能进行 reshape 工作:

a = np.linspace(1,10,20).reshape((5,4)) # 更改shape
"""
array([[  1.        ,   1.47368421,   1.94736842,   2.42105263],
       [  2.89473684,   3.36842105,   3.84210526,   4.31578947],
       [  4.78947368,   5.26315789,   5.73684211,   6.21052632],
       [  6.68421053,   7.15789474,   7.63157895,   8.10526316],
       [  8.57894737,   9.05263158,   9.52631579,  10.        ]])
"""

# Numpy 基础运算1--------------------------------------->>>>>>>>

import numpy as np
a=np.array([10,20,30,40])   # array([10, 20, 30, 40])
b=np.arange(4)              # array([0, 1, 2, 3])

c=a-b  # array([10, 19, 28, 37])
c=a+b   # array([10, 21, 32, 43])
c=a*b   # array([  0,  20,  60, 120])

c=10*np.sin(a)
# array([-5.44021111,  9.12945251, -9.88031624,  7.4511316 ])

print(b<3)
# array([ True,  True,  True, False], dtype=bool)

a=np.array([[1,1],[0,1]])
b=np.arange(4).reshape((2,2))

print(a)
# array([[1, 1],
#       [0, 1]])

print(b)
# array([[0, 1],
#       [2, 3]])

c_dot = np.dot(a,b)
# array([[2, 4],
#       [2, 3]])

c_dot_2 = a.dot(b)
# array([[2, 4],
#       [2, 3]])

import numpy as np
a=np.random.random((2,4))
print(a)
# array([[ 0.94692159,  0.20821798,  0.35339414,  0.2805278 ],
#       [ 0.04836775,  0.04023552,  0.44091941,  0.21665268]])

np.sum(a)   # 4.4043622002745959
np.min(a)   # 0.23651223533671784
np.max(a)   # 0.90438450240606416

print("a =",a)
# a = [[ 0.23651224  0.41900661  0.84869417  0.46456022]
# [ 0.60771087  0.9043845   0.36603285  0.55746074]]

print("sum =",np.sum(a,axis=1))
# sum = [ 1.96877324  2.43558896]

print("min =",np.min(a,axis=0))
# min = [ 0.23651224  0.41900661  0.36603285  0.46456022]

print("max =",np.max(a,axis=1))
# max = [ 0.84869417  0.9043845 ]


# 如果你需要对行或者列进行查找运算,就需要在上述代码中为 axis 进行赋值。
# 当axis的值为0的时候,将会以列作为查找单元,
# 当axis的值为1的时候,将会以行作为查找单元。


# Numpy 基础运算2---------------------------------->>>>>>>>

import numpy as np

A = np.arange(2, 14).reshape((3, 4))

# array([[ 2, 3, 4, 5]
#        [ 6, 7, 8, 9]
#        [10,11,12,13]])

# 对应元素的索引也是非常重要的
print(np.argmin(A))  # 0
print(np.argmax(A))  # 11
# 其中的 argmin() 和 argmax() 两个函数分别对应着求矩阵中最小元素和最大元素的索引。

# 如果需要计算统计中的均值,可以利用下面的方式,将整个矩阵的均值求出来:
print(np.mean(A))        # 7.5
print(np.average(A))     # 7.5

# 仿照着前一节中dot() 的使用法则,mean()函数还有另外一种写法:
print(A.mean())          # 7.5

# 同样的,我们可以写出求解中位数的函数:
print(A.median())       # 7.5

# 另外,和matlab中的cumsum()累加函数类似,Numpy中也具有cumsum()函数,其用法如下:
print(np.cumsum(A))
# [2 5 9 14 20 27 35 44 54 65 77 90]

# 在cumsum()函数中:生成的每一项矩阵元素均是从原矩阵首项累加到对应项的元素之和。比如元素9,在cumsum()生成的矩阵中序号为3,即原矩阵中2,3,4三个元素的和。


# 相应的有累差运算函数:每两个数之间的差值
print(np.diff(A))
# [[1 1 1]
#  [1 1 1]
#  [1 1 1]]

# 该函数计算的便是每一行中后一项与前一项之差。故一个3行4列矩阵通过函数计算得到的矩阵便是3行3列的矩阵。

# 下面我们介绍一下nonzero()函数:输出非零值的对应每一个值的行,列
print(np.nonzero(A))
# (array([0,0,0,0,1,1,1,1,2,2,2,2]),array([0,1,2,3,0,1,2,3,0,1,2,3]))


import numpy as np
A = np.arange(14,2, -1).reshape((3,4))
"""
array([[14, 13, 12, 11],
      [10,  9,  8,  7],
      [ 6,  5,  4,  3]])
"""
print(np.sort(A))    #排序

"""
array([[11,12,13,14]
       [ 7, 8, 9,10]
       [ 3, 4, 5, 6]])
"""

# 矩阵的转置有两种表示方法:

print(np.transpose(A))
print(A.T)

# array([[14,10, 6]
#        [13, 9, 5]
#        [12, 8, 4]
#        [11, 7, 3]])
# array([[14,10, 6]
#        [13, 9, 5]
#        [12, 8, 4]
#        [11, 7, 3]])

# 特别的,在Numpy中具有clip()函数,例子如下:

print(A)
# array([[14,13,12,11]
#        [10, 9, 8, 7]
#        [ 6, 5, 4, 3]])

print(np.clip(A,5,9)) #只保留5和9之间的数,其他数都用5和9代替
# array([[ 9, 9, 9, 9]
#        [ 9, 9, 8, 7]
#        [ 6, 5, 5, 5]])

# 这个函数的格式是clip(Array,Array_min,Array_max),
# 顾名思义,Array指的是将要被执行用的矩阵,
# 而后面的最小值最大值则用于让函数判断矩阵中元素是否有比最小值小的或者比最大值大的元素,
# 并将这些指定的元素转换为最小值或者最大值。


# Numpy 索引---------------------------------->>>>>

import numpy as np

A = np.arange(3, 15)
# array([3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14])

print(A[3])  # 6
# 让我们将矩阵转换为二维的,此时进行同样的操作:

A = np.arange(3, 15).reshape((3, 4))
"""
array([[ 3,  4,  5,  6]
       [ 7,  8,  9, 10]
       [11, 12, 13, 14]])
"""

print(A[2])
# [11 12 13 14]

# 如果你想要表示具体的单个元素,可以仿照上述的例子:
print(A[1][1])  # 8

# 此时对应的元素即A[1][1],在A中即横纵坐标都为1,第二行第二列的元素,即8(因为计数从0开始)。
# 同样的还有其他的表示方法:
print(A[1, 1])  # 8

# 在Python的list中,我们可以利用: 对一定范围内的元素进行切片操作,在Numpy中我们依然可以给出相应的方法:
print(A[1, 1:3])  # [8 9]
# 这一表示形式即针对第二行中第2到第4列元素进行切片输出(不包含第4列)。
# 此时我们适当的利用for函数进行打印:

for row in A:
    print(row)
"""    
[ 3,  4,  5, 6]
[ 7,  8,  9, 10]
[11, 12, 13, 14]
"""
# 此时它会逐行进行打印操作。如果想进行逐列打印,就需要稍稍变化一下:

for column in A.T:
    print(column)
"""  
[ 3,  7,  11]
[ 4,  8,  12]
[ 5,  9,  13]
[ 6, 10,  14]
"""
# 上述表示方法即对A进行转置,再将得到的矩阵逐行输出即可得到原矩阵的逐列输出。

# 最后依然说一些关于迭代输出的问题:

import numpy as np

A = np.arange(3, 15).reshape((3, 4))

print(A.flatten()) #打平
# array([3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14])

for item in A.flat:
    print(item)

# 3
# 4
# ……
# 14
# 这一脚本中的flatten是一个展开性质的函数,将多维的矩阵进行展开成1行的数列。
# 而flat是一个迭代器,本身是一个object属性。




# Numpy array 合并------------------------------------------------

# np.vstack()  ----------------上下合并-----------------///

import numpy as np

A = np.array([1, 1, 1])
B = np.array([2, 2, 2])

print(np.vstack((A, B)))  # vertical stack
"""
[[1,1,1]
 [2,2,2]]
"""
# vertical stack本身属于一种上下合并,即对括号中的两个整体进行对应操作。
# 此时我们对组合而成的矩阵进行属性探究:

C = np.vstack((A,B))
print(A.shape,C.shape)

# (3,) (2,3)

# np.hstack()   ------------------左右合并---------------///

# 我们来说说左右合并:
A = np.array([1, 1, 1])
B = np.array([2, 2, 2])

D = np.hstack((A,B))       # horizontal stack

print(D)
# [1,1,1,2,2,2]

print(A.shape,D.shape)
# (3,) (6,)

# np.newaxis() ¶---------------------------------///
# 我们借助其他的函数操作进行  转置  ------>>>
A = np.array([1, 1, 1])
print(A[np.newaxis,:])#在行上加了个维度
# [[1 1 1]]

print(A[np.newaxis,:].shape)
# (1,3)

print(A[:,np.newaxis])
"""
[[1]
[1]
[1]]
"""

print(A[:,np.newaxis].shape)
# (3,1)

# 此时我们便将具有3个元素的array转换为了1行3列以及3行1列的矩阵了

import numpy as np

A = np.array([1, 1, 1])[:, np.newaxis]
B = np.array([2, 2, 2])[:, np.newaxis]

C = np.vstack((A, B))  # vertical stack
D = np.hstack((A, B))  # horizontal stack

print(D)
"""
[[1 2]
[1 2]
[1 2]]
"""

print(A.shape, D.shape)
# (3,1) (3,2)


# np.concatenate() --------------------------------///

# 当你的合并操作需要针 对多个矩阵或序列时,
# 借助concatenate函数可能会让你使用起来比前述的函数更加方便:
A = np.array([1, 1, 1])[:, np.newaxis]
B = np.array([2, 2, 2])[:, np.newaxis]

C = np.concatenate((A,B,B,A),axis=0) #多列合并

print(C)
"""
array([[1],
       [1],
       [1],
       [2],
       [2],
       [2],
       [2],
       [2],
       [2],
       [1],
       [1],
       [1]])
"""

D = np.concatenate((A,B,B,A),axis=1)

print(D)
"""
array([[1, 2, 2, 1],
       [1, 2, 2, 1],
       [1, 2, 2, 1]])
"""
# axis参数很好的控制了矩阵的纵向或是横向打印,相比较vstack和hstack函数显得更加方便。


# Numpy array 分割 -------------------------------->>>>

A = np.arange(12).reshape((3, 4))
print(A)
"""
array([[ 0,  1,  2,  3],
    [ 4,  5,  6,  7],
    [ 8,  9, 10, 11]])
"""


# 纵向分割

print(np.split(A, 2, axis=1)) #分割成2个片段
"""
[array([[0, 1],
        [4, 5],
        [8, 9]]), array([[ 2,  3],
        [ 6,  7],
        [10, 11]])]
"""

# 横向分割

print(np.split(A, 3, axis=0))

# [array([[0, 1, 2, 3]]), array([[4, 5, 6, 7]]), array([[ 8,  9, 10, 11]])]



# 不等量的分割

# 在机器学习时经常会需要将数据做不等量的分割,因此解决办法为np.array_split()

print(np.array_split(A, 3, axis=1))
"""
[array([[0, 1],
        [4, 5],
        [8, 9]]), array([[ 2],
        [ 6],
        [10]]), array([[ 3],
        [ 7],
        [11]])]
"""



# 其他的分割方式
#
# 在Numpy里还有np.vsplit()与横np.hsplit()方式可用。

A = np.arange(12).reshape((3, 4))
print(A)
"""
array([[ 0,  1,  2,  3],
    [ 4,  5,  6,  7],
    [ 8,  9, 10, 11]])
"""

print(np.vsplit(A, 3)) #等于 print(np.split(A, 3, axis=0))

# [array([[0, 1, 2, 3]]), array([[4, 5, 6, 7]]), array([[ 8,  9, 10, 11]])]


print(np.hsplit(A, 2)) #等于 print(np.split(A, 2, axis=1))
"""
[array([[0, 1],
       [4, 5],
       [8, 9]]), array([[ 2,  3],
        [ 6,  7],
        [10, 11]])]
"""


# Numpy copy & deep copy  -------->>>>>


# 首先 import numpy 并建立变量, 给变量赋值。

import numpy as np

a = np.arange(4)
# array([0, 1, 2, 3])

b = a
c = a
d = b
# 改变a的第一个值,b、c、d的第一个值也会同时改变-----///

a[0] = 11
print(a)
# array([11,  1,  2,  3])
# 确认b、c、d是否与a相同。

b is a  # True
c is a  # True
d is a  # True
# 同样更改d的值,a、b、c也会改变。

d[1:3] = [22, 33]   # array([11, 22, 33,  3])
print(a)            # array([11, 22, 33,  3])
print(b)            # array([11, 22, 33,  3])
print(c)            # array([11, 22, 33,  3])


# copy() 的赋值方式没有关联性

b = a.copy()    # deep copy
print(b)        # array([11, 22, 33,  3])
a[3] = 44
print(a)        # array([11, 22, 33, 44])
print(b)        # array([11, 22, 33,  3])

# 此时a与b已经没有关联。





  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值