Python数据分析基础：array，Series，DataFrame

最新推荐文章于 2023-08-20 19:30:57 发布

Hi_Night

最新推荐文章于 2023-08-20 19:30:57 发布

阅读量1.5k

点赞数 2

分类专栏： Python 文章标签： python 数据分析

本文链接：https://blog.csdn.net/m0_53999934/article/details/125119209

版权

本文介绍了Python数据分析的基础，重点讲解了Numpy的array操作和Pandas的Series与DataFrame数据结构。Pandas在Numpy基础上提供高级接口，支持数值型、字符串、日期等多种数据类型，方便进行统计分析和数据处理。文章详细阐述了DataFrame的基础统计函数、数据清洗、分组统计以及高效处理的apply()方法。

摘要由CSDN通过智能技术生成

1. Numpy，科学计算的核心

Numpy 中的基础数据结构是 array（数组），数组也就是矩阵的意思。

一维数组是行向量，二维数组是列向量/矩阵；

三维数组是在时间轴上的二维数组，三维和高维的数组通常用的不多。

（1）关于np.array的常见操作：

>>> import numpy as np
>>> import pandas as pd
>>> a = np.array([[1,2,3],[4,5,6]])
>>> a
array([[1, 2, 3],
       [4, 5, 6]])
>>> # 数组的维度
>>> a.shape
(2, 3)
>>> # 将二维数组转成一维数组
>>> a.ravel()
array([1, 2, 3, 4, 5, 6])
>>> # 改变二维数组形状
>>> a.reshape((3,2))
array([[1, 2],
       [3, 4],
       [5, 6]])
>>> a.shape
(2, 3)

（2）关于np.random的常见操作：

>>> # 在[0,1）内产生随机数，维度是3*2
>>> np.random.random((3,2))
array([[0.63884278, 0.02508707],
       [0.71119818, 0.10008103],
       [0.68718291, 0.2778071 ]])
>>> # 产生指定区间的随机整数，维度是3*2
>>> np.random.randint(low=2, high=10, size=(3,2))
array([[8, 3],
       [2, 6],
       [2, 9]])
>>> # 均匀分布
>>> np.random.uniform(low=3, high=10, size=(3,2))
array([[9.16399837, 5.75987948],
       [7.02144694, 8.47427805],
       [7.38052989, 8.4861068 ]])