python数据分析

最新推荐文章于 2022-12-05 19:45:18 发布

墨竹菊

最新推荐文章于 2022-12-05 19:45:18 发布

阅读量382

点赞数

分类专栏： python 数模文章标签： python 数据分析

本文链接：https://blog.csdn.net/m0_52074396/article/details/119086447

版权

python 同时被 2 个专栏收录

5 篇文章 0 订阅

订阅专栏

数模

5 篇文章 1 订阅

订阅专栏

如有错误，感谢指正

请根据目录寻找自己需要的段落

导语：本博客为个人整理Python学习帖，如有错误，感谢指正。系统学习，欢迎持续关注，后续会涉及自动化办公，爬虫，python大数据，算法，人工智能基础—对接AI。欢迎关注，python基础阶段结束，会更新AIOT相关博客，欢迎大家讨论相关AIOT技术，如有大佬愿意加入团队，欢迎私信。

实战项目为：用户消费行为数据分析，餐厅订单数据分析。别的实战项目就不方便更新了，可以私信我讨论一些你遇到的问题，能解决我给解决一下，大家共同进步！

环境

环境入门，建议只部署anaconda即可 ipython不好用，jupyter集成在anaconda里了，安装方法：CSDN别的大神发了很多教程，可以照着安装，切记安装最新的
环境部署

数据类型

bool_	布尔类型
int_	默认整数型
intc	int32/int64
intp	用于索引的整数类型
int8	-128 to 127
int16	—
int32	----
int64	-----
uint8	无符号整数
unit16	----
unit32	----
unit64	-----
float_	float64
float16	半精度
float32	单精度
float64	双精度
complex_	128位复数
complex64	双32位浮点数
complex128	双64位

每个内建类型都有一个唯一定义它的字符代码

b 浮点型
i 整型（有符号）
u 无符号整型
f 浮点型
c 复数浮点型
m 时间间隔 timedelta
M datetime 日期时间
O对象
S，a 字符串（byte_）
U Unicode
V 原始数据 void

数据类型对象dtype
数据类型对象是用来描述与数组对应的内存区域如何使用：

数据的类型
数据的大小
数据的字节顺序
在结构化类型的情况下，字段的名称、每个字段的数据类型和每个字段所取的内存块的部分
如果数据类型是子数组，它的形状和数据类型

创建数据类型对象
numpy.dtype(object,align,copy)

object 要转换为的数据类型对象
align true 表示填充字段使其类似c的结构体
copy flase表示对内置数据类型对象的引用

import numpy as np
dt = np.dtype(np.int32)
print(dt)
print(type(dt))

import numpy as np
dt = np.dtype(np.‘i4’)
print(dt)
print(type(dt))

import numpy as np
dt = np.dtype(np.‘<i4’)
print(dt)
print(type(dt))

import numpy as np
student = np.dtype([("name","s20"),("age",'i4'),('marks','f4')])
print(student )
print(type(student ))

Array

array（）函数

numpy.array(object,dtype = None,copy=True,order=None,subok=False,ndmin=0) 
# 创建Ndarry数组对象
# object 数组或嵌套的数列
# dtype 数组对象数据类型
# copy 对象是否需要复制
# order 创建数组的样式，C行 F列 A任意方向（默认）
# subok 默认返回一个与基类类型一致的数组
# ndmin 指定生成数组的最小维度

import numpy as np
arr = np.array([1,2,3,4,5])
print(arr)
print(type(arr))

import numpy as np
arr = np.array([1,2,3,4.5,5,6,7,8])
print(arr)
print(type(arr))

import numpy as np
arr = np.array([[1,2,3,4,5],[1,2,3,4,5]])
print(arr)
print(type(arr))

import numpy as np
arr = np.array([1,2,3,4,5],ndmin=2)
print(arr)
print(type(arr))

import numpy as np
arr = np.array([1,2,3,4,5],dtype=np.float) # dtypr='f'
print(arr)
print(type(arr))

import numpy as np
student= np.dtype([("name","S20"),("age","i4"),("marks","f4")])
arr = np.array([("sunck",18,99.999),("kaige",19.99.998)],dtype=student)
print(arr)
print(type(arr))

asarray()

numpy.asarray(a.dtype=None,order=None)
# a 任意类型的输入参数
# dtype 数据类型可选
# order 可选  C F

import numpy as np
arr = np.array((1,2,3,4,5)) 
print(arr)
print(type(arr))

import numpy as np
arr = np.array([(1,2,3),(4,5)]) 
print(arr)
print(type(arr))

empty()

numpy.empty(shape,dtype=float,order='C')
# 创建一个指定形状、数据类型且未初始化的数组
# shape 数组形状
# dtype 数据类型 可选
# order “C"、"F"

import numpy as np
arr = np.empty([3,2],dtype=int) 
print(arr)
print(type(arr))

zeros()

numpy.zeros(shape,dtype=float,order='C')
# 创建指定大小的数组，数组元素以0来填充
# shape
# dtype
# order ’C‘、'F'

import numpy as np
arr = np.zeros(5,detype = int) 
print(arr)
print(type(arr))

import numpy as np
arr = np.zeros([3,2],detype = [('x','i4'),('y','f')]) 
print(arr)
print(type(arr))

ones()

numpy.ones(shape,dtype = None,order = 'C')
# 创建指定性状的数组，数组元素以1填充
# shape
# dtype
# order

import numpy as np
arr = np.ones(5,detype = int) 
print(arr)
print(type(arr))

import numpy as np
arr = np.ones([3,2],detype = [('x','i4'),('y','f')]) 
print(arr)
print(type(arr))

full()

numpy.full(shape,fill_value,dtype=None,order='C')
# 创建指定形状的数组，数组元素以fill_value 填充
# shape
# fill_value 填充的数据
# dtype
# order 'C','F'

import numpy as np
arr = np.full(5,fill_value=1024,dtype='i4') 
print(arr)
print(type(arr))

eye()

numpy.eye(N,M=None,k=0,dtype=float,order'C')
# 对角线为1 其他位置是0
# N 行数量
# M 列数量，默认等于行数量，可选

import numpy as np
arr = np.eye(10,detype = int) 
print(arr)
print(type(arr))

arange()

numpy.arange(start,stop.step.dtype)
# 创建数值范围并返回ndarray对象，根据start与stop指定范围以及step设定步长，生成一个ndarray
# start 起始值，默认为0
# stop 终止值(不包含)
# step 步长，默认为1
# dtype 返回ndarray的数据类型，默认选择输入数据类型

import numpy as np
arr = np.arange(1,11,1) 
print(arr)
print(type(arr))

frombuffer()

numpy.frombuffer(buffer,dtype=float,count=1,offset=0)
# 用于实现动态数组，接受buffer输入参数，以流的形式读入转换成ndarray对象
# buffer是字符串的时候，p3默认str是Unicode类型 转成bytestring在原str前加上b
# buffer 可以是任意对象，会以流的形式读入
# dtype 返回数组的数据类型
# count 读取的数据数量，默认为-1 读取所有数据
# offset 读取的起始位置，默认为0

import numpy as np
x = b"sunck is a good man"
arr = np.frombuffer(x,detype = 'S1',count=5,offset=2) 
print(arr)
print(type(arr))

fromiter()

numpy.fromiter(iterable,dtype.count=-1)
# 从可迭代对象种简历ndarray对象，返回一维数组

import numpy as np
x=[1,2,3,4,5]
z=iter(x)
arr = np.fromiter(z,detype = 'f') 
print(arr)
print(type(arr))

linspace()

numpy.linspace(start,stop.num=50,endpoint=True,retstep=False,dtype=None)
# 创建一个一维数组，数组是一个等差数列构成
# start 序列起始值
# stop 序列终止值 如果endpoint为True 则 包含该值
# num 要生成的等步长的样本数量 默认50
# retstep 如果为True，生成数组中会显示间距，反之不显示 默认 false

import numpy as np
arr = np.linspace(1,10,10，dtype='i4') 
print(arr)

logspace()

numpy.logspace(start,stop，num=50,endpoint=True,base=10.0,dtype=None)
# 等比
# base 对数log的底数，默认是10

import numpy as np
arr = np.logspace(1.0,2.0,10) 
print(arr)

random.rand()

rand(d0,d1,...,dn)
# 生成[0,1)之间的随机数

import numpy as np
arr = np.random.rand() 
print(arr)
print(type(arr))

import numpy as np
arr = np.random.rand(3) 
print(arr)
print(type(arr))

import numpy as np
arr = np.random.rand(3,2) 
print(arr)
print(type(arr))

random.random()

random(size=None)

import numpy as np
arr = np.random.random(3) 
print(arr)
print(type(arr))

random.randint()

randint(low,high=None,size=None,dtype='1')
# 生成随机数
# low 下限
# high 不包含的上限
# size 个数

import numpy as np
arr = np.random.randint(0,10,5) 
print(arr)
print(type(arr))

random.randn()

randn(d0,d1,...,dn)
# 返回一个或一组样本，具有标准正态分布

import numpy as np
arr = np.random.randn() 
print(arr)
print(type(arr))

import numpy as np
arr = np.random.randn(2,4) 
print(arr)
print(type(arr))

import numpy as np
arr = np.random.randn(4,3,2) 
print(arr)
print(type(arr))

random.normal()

normal(loc=0.0,scale=1.0,size=None)
# 生成高斯分布的概率密度随机数
# loc 浮点型，此概论分布的均值
# scale 浮点型，此概论分布的标准差
# size 输出的shape 默认为None，只输出一个值

numpy数组与python中列表的对比
效率对比 numpy要块很多

Ndarray数组属性

NumPy数组的维数称为秩(rank) ，一维数组的秩为1，二维数组的秩为2，以此类推
在NumPy中，每一个线性的数组称为是一个轴(axis) ，也就是维度(dimensions) 。比如说，二维数组相当于是两个一维数组，其中第一个一维数组中每个元素又是一个一维数组。所以一维数组就是NumPy中的轴(axis) ，第一个轴相当于是底层数组，第二个轴是底层数组里的数组。而轴的数量—秩，就是数组的维数。
很多时候可以声明axis。axis=0，表示沿着第0轴进行操作，即对每一列进行操作;axis=1，表示沿着第1轴进行操作，即对每一行进行操作

常用属性

属性	说明
ndim	秩，轴的数量/维度的数量
shape	数组的维度，对于矩阵，n行m列
size	数组元素的总个数，相当于.shape中n*m的值
dtype	ndarray对象的元素类型
itemsize	ndarray对象中每个元素的大小，以字节为单位
flags	ndarray对象的内存信息
real	ndarray元素的实部
imag	ndarray元素的虚部
data	包含实际数组元素的缓冲区，由于一般通过数组的索引获取元素，所以通常不需要使用这个属性

import numpy as np
arr = np.random.randn(4,3,2) 
print(arr)
print(type(arr))
print(arr.ndim)
print(arr.shape)
arr.reshape(3,2)
print(arr.shape)
print(arr.size)
print(arr.dtype)
print(arr.itemsize)
print(arr.flags)# 属性用的少，需要了解百度查查就行

数组操作

索引和切片

ndarray对象的内容可以通过索引或切片来访问和修改。与Python 中list
的切片操作一样ndarray数组可以基于0-n的下标进行索引，切片对象可以通过内置的slice函数，并设置start,stop及step参数进行, (从原数组中切割出一个新数组）

import numpy as np
arr = np.arrange(10)
print(arr)
arr[1]
s = slice(2,7,2)
print(arr[s])
# start:stop:step:  类比python，多用就会了，规则自行百度，看一眼就会的东西
arr2=arr[2:7:2]
print(arr2)
arr[5]
arr[2:]
arr[2:6]
arr[:6]
# 多维数组 原理一样
arr=np.arange(15)
arr.shape=(5,3)
arr[2]
arr[2][1]
arr[2:]
arr[1:3]

切片还可以包括省略号…，来使选择元组的长度与数组的维度相同。

import numpy as np
arr=np.arange(15)
arr.shape=(5,3)
arr[...,1]
arr[1,...]
arr[1:3,...]
arr[...,1:]

墨竹菊

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
1
评论
python数据分析

本博客为个人整理Python学习帖，如有错误，感谢指正。系统学习，欢迎持续关注，后续会涉及自动化办公，爬虫，python大数据，算法，人工智能基础---对接AI。欢迎关注，python基础阶段结束，会更新AIOT相关博客，欢迎大家讨论相关AIOT技术，如有大佬愿意加入团队，欢迎私信。
复制链接

扫一扫