常用numpy函数（numpy数据分析练习

最新推荐文章于 2023-01-14 20:50:59 发布

养鲲致富的大学生

最新推荐文章于 2023-01-14 20:50:59 发布

阅读量449

点赞数

分类专栏：嵌入式学习

本文链接：https://blog.csdn.net/qq_41107392/article/details/87513976

版权

嵌入式学习专栏收录该内容

13 篇文章 0 订阅

订阅专栏

np.digitize()

import random as rd
data=[rd.randint(a=100,b=1000) for _ in range(20)]
bins=[200,300,400,500,600,700,800,900,1000]
print(‘data:’,data)
print(‘bins:’,bins)
print(‘np.digitize(data,bins):’,np.digitize(data,bins))

https://blog.csdn.net/weixin_38358654/article/details/78997769
结果图像
Tips：digitize(data,bins)函数对data列表似乎没有什么要求，但是对bins列表是由要求的：要求bins雷暴汇总的数据要么是升序的要么是降序的，绝壁不能是随意的一堆数。

大家可以很清楚的看到，digitize(data,bins)函数执行的过程大概如下：相当于两层for循环。首先最外面的一层：顺序的遍历data列表，取出当前的一个数a，然后顺序的遍历bins列表，返回bins列表中某个数的索引，如何找呢？规则如下：如果：bins列表是升序的，那么如果满足 bins[i-1]<=a<bins[i],那么就保存i，然后回到外层循环继续上面的操作，如果bins列表是降序的，那么如果满足 bins[i]<=a<bins[i-1],那么就保存i，当data列表遍历完之后，就返回由i组成的来源于bins的索引的一个索引列表。

np.hstack()数组横接 np.vstack()数组垂接
https://blog.csdn.net/m0_37393514/article/details/79538748

np.newaxis()
np.newaxis 为 numpy.ndarray（多维数组）增加一个轴
比如把有n个元素的一维数组转换成n行1列的二维数组

x = np.arange(3)
x
array([0, 1, 2])

x.shape
(3,)

x[:, np.newaxis]
array([[0],
[1],
[2]])

x[:, None]
array([[0],
[1],
[2]])

x[:, np.newaxis].shape
(3, 1)

4.Random函数详解

1 numpy.random.rand()

numpy.random.rand(d0,d1,…,dn)

rand函数根据给定维度生成[0,1)之间的数据，包含0，不包含1
dn表格每个维度
返回值为指定维度的array
np.random.rand(4,2)
array([[ 0.02173903, 0.44376568],
[ 0.25309942, 0.85259262],
[ 0.56465709, 0.95135013],
[ 0.14145746, 0.55389458]])
np.random.rand(4,3,2) # shape: 432
array([[[ 0.08256277, 0.11408276],
[ 0.11182496, 0.51452019],
[ 0.09731856, 0.18279204]],

   [[ 0.74637005,  0.76065562],
    [ 0.32060311,  0.69410458],
    [ 0.28890543,  0.68532579]],

   [[ 0.72110169,  0.52517524],
    [ 0.32876607,  0.66632414],
    [ 0.45762399,  0.49176764]],

   [[ 0.73886671,  0.81877121],
    [ 0.03984658,  0.99454548],
    [ 0.18205926,  0.99637823]]])

2 numpy.random.randn()

numpy.random.randn(d0,d1,…,dn)

randn函数返回一个或一组样本，具有标准正态分布。
dn表格每个维度
返回值为指定维度的array
np.random.randn() # 当没有参数时，返回单个数据
-1.1241580894939212
np.random.randn(2,4)
array([[ 0.27795239, -2.57882503, 0.3817649 , 1.42367345],
[-1.16724625, -0.22408299, 0.63006614, -0.41714538]])
np.random.randn(4,3,2)
array([[[ 1.27820764, 0.92479163],
[-0.15151257, 1.3428253 ],
[-1.30948998, 0.15493686]],

   [[-1.49645411, -0.27724089],
    [ 0.71590275,  0.81377671],
    [-0.71833341,  1.61637676]],

   [[ 0.52486563, -1.7345101 ],
    [ 1.24456943, -0.10902915],
    [ 1.27292735, -0.00926068]],

   [[ 0.88303   ,  0.46116413],
    [ 0.13305507,  2.44968809],
    [-0.73132153, -0.88586716]]])

标准正态分布介绍

标准正态分布—-standard normal distribution
标准正态分布又称为u分布，是以0为均值、以1为标准差的正态分布，记为N（0，1）。
3 numpy.random.randint()

3.1 numpy.random.randint()

numpy.random.randint(low, high=None, size=None, dtype=’l’)

返回随机整数，范围区间为[low,high），包含low，不包含high
参数：low为最小值，high为最大值，size为数组维度大小，dtype为数据类型，默认的数据类型是np.int
high没有填写时，默认生成随机数的范围是[0，low)
np.random.randint(1,size=5) # 返回[0,1)之间的整数，所以只有0
array([0, 0, 0, 0, 0])
np.random.randint(1,5) # 返回1个[1,5)时间的随机整数
4
np.random.randint(-5,5,size=(2,2))
array([[ 2, -1],
[ 2, 0]])
3.2 numpy.random.random_integers

numpy.random.random_integers(low, high=None, size=None)

返回随机整数，范围区间为[low,high]，包含low和high
参数：low为最小值，high为最大值，size为数组维度大小
high没有填写时，默认生成随机数的范围是[1，low]
该函数在最新的numpy版本中已被替代，建议使用randint函数

np.random.random_integers(1,size=5)
array([1, 1, 1, 1, 1])
4 生成[0,1)之间的浮点数

numpy.random.random_sample(size=None)
numpy.random.random(size=None)
numpy.random.ranf(size=None)
numpy.random.sample(size=None)
print(’-----------random_sample--------------’)
print(np.random.random_sample(size=(2,2)))
print(’-----------random--------------’)
print(np.random.random(size=(2,2)))
print(’-----------ranf--------------’)
print(np.random.ranf(size=(2,2)))
print(’-----------sample--------------’)
print(np.random.sample(size=(2,2)))
-----------random_sample--------------
[[ 0.34966859 0.85655008]
[ 0.16045328 0.87908218]]
-----------random--------------
[[ 0.25303772 0.45417512]
[ 0.76053763 0.12454433]]
-----------ranf--------------
[[ 0.0379055 0.51288667]
[ 0.71819639 0.97292903]]
-----------sample--------------
[[ 0.59942807 0.80211491]
[ 0.36233939 0.12607092]]
5 numpy.random.choice()

numpy.random.choice(a, size=None, replace=True, p=None)

从给定的一维数组中生成随机数
参数： a为一维数组类似数据或整数；size为数组维度；p为数组中的数据出现的概率
a为整数时，对应的一维数组为np.arange(a)
np.random.choice(5,3)
array([4, 1, 4])
np.random.choice(5, 3, replace=False)

当replace为False时，生成的随机数不能有重复的数值

array([0, 3, 1])
np.random.choice(5,size=(3,2))
array([[1, 0],
[4, 2],
[3, 3]])
demo_list = [‘lenovo’, ‘sansumg’,‘moto’,‘xiaomi’, ‘iphone’]
np.random.choice(demo_list,size=(3,3))
array([[‘moto’, ‘iphone’, ‘xiaomi’],
[‘lenovo’, ‘xiaomi’, ‘xiaomi’],
[‘xiaomi’, ‘lenovo’, ‘iphone’]],
dtype=’<U7’)
参数p的长度与参数a的长度需要一致；
参数p为概率，p里的数据之和应为1
demo_list = [‘lenovo’, ‘sansumg’,‘moto’,‘xiaomi’, ‘iphone’]
np.random.choice(demo_list,size=(3,3), p=[0.1,0.6,0.1,0.1,0.1])
array([[‘sansumg’, ‘sansumg’, ‘sansumg’],
[‘sansumg’, ‘sansumg’, ‘sansumg’],
[‘sansumg’, ‘xiaomi’, ‘iphone’]],
dtype=’<U7’)
6 numpy.random.seed()

np.random.seed()的作用：使得随机数据可预测。
当我们设置相同的seed，每次生成的随机数相同。如果不设置seed，则每次会生成不同的随机数
np.random.seed(0)
np.random.rand(5)
array([ 0.5488135 , 0.71518937, 0.60276338, 0.54488318, 0.4236548 ])
np.random.seed(1676)
np.random.rand(5)
array([ 0.39983389, 0.29426895, 0.89541728, 0.71807369, 0.3531823 ])
np.random.seed(1676)
np.random.rand(5)

5.列表的argsort函数详解
1.先定义一个array数据

import numpy as np
x=np.array([1,4,3,-1,6,9])

2.现在我们可以看看argsort()函数的具体功能是什么：
x.argsort()
输出定义为y=array([3,0,2,1,4,5])。
我们发现argsort()函数是将x中的元素从小到大排列，提取其对应的index(索引)，然后输出到y。例如：x[3]=-1最小，所以y[0]=3,x[5]=9最大，所以y[5]=5

3.由于在程序中遇到了类似于np.argsort()[num]的形式，一直看不明白，就自己去python环境自己试了下：
ps：这里的num的绝对值小于等于x中元素的个数

当num>=0时，np.argsort()[num]就可以理解为y[num];
当num<0时，np.argsort()[num]就是把数组y的元素反向输出，例如np.argsort()[-1]即输出x中最大值对应的index，np.argsort()[-2]即输出x中第二大值对应的index，依此类推。。

6.类型转换详解
astype dtype
https://blog.csdn.net/Da_wan/article/details/80518725

7. np.where()
用法一：可以返回一个n维数组，可广播

np.where(condiction,x,y)这个函数的三个输入参数分别是条件（可以是矩阵），x,y数值矩阵用于返回值的选取：

语法类似于三元表达式x if condiction else y,当条件为真的时候返回x的值，条件为假时返回y的值。

8. np.argpartition()
np.argpartition：划分重组数组,返回的是重组后数据的索引数组(切记这个输出形式)。

array.shape[0]计算列数
array.shape[1]计算行数

list.enumerate(iterable, start=0)
枚举
enumerate的作用就是对可迭代的数据进行标号并将其里面的数据和标号一并打印出来

第一个参数为可迭代的数据，比如python中的list。第二个参数为该函数打印标号的初始值，默认从0开始打印，该函数返回一个enumerate类型的数

12 独热编码函数

np.random.seed(101)
arr = np.random.randint(1,4,size = 6)
print(arr)
# solution
#方法非常重要
def one_hot_encoding(arr):
	uniqs = np.unique(arr)
	out = np.zeros((arr.shape[0],uniqs.shape[0])) # .shape[0]计算列数
	print(uniqs)
	print(uniqs.shape[0])
	for i,k in enumerate(arr): #把对应数据标记值给之前创建的空数组赋值
		out[i,k-1] = 1
	return out
print(arr.shape[0])

numpy中的ravel()、flatten()、squeeze()都有将多维数组转换为一维数组的功能，区别：
ravel()：如果没有必要，不会产生源数据的副本
flatten()：返回源数据的副本
squeeze()：只能对维数为1的维度降维

求数组每个序列的最值
np.amax(array,axis = )
0 求列最值 1 求每行最值

np.max：(a, axis=None, out=None, keepdims=False)
求序列的最值
最少接收一个参数
axis：默认为列向（也即 axis=0），axis = 1 时为行方向的最值；
np.maximum：(X, Y, out=None)
X 与 Y 逐位比较取其大者；
最少接受两个参数

养鲲致富的大学生

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
常用numpy函数（numpy数据分析练习

np.digitize()import random as rddata=[rd.randint(a=100,b=1000) for _ in range(20)]bins=[200,300,400,500,600,700,800,900,1000]print(‘data:’,data)print(‘bins:’,bins)print(‘np.digitize(data,bins)...
复制链接

扫一扫

专栏目录