Python Data Analysis Library(一)--pandas

最新推荐文章于 2024-02-05 07:45:00 发布

原创

最新推荐文章于 2024-02-05 07:45:00 发布 · 918 阅读

1 ·

CC 4.0 BY-SA版权

文章标签：

#python3 #pandas #数据分析

本文介绍了Python数据分析库pandas的基础知识，包括其与NumPy和Matplotlib的关系，数据类型，以及创建、查看和操作数据的方法。重点讨论了如何通过.loc, .iloc, .at, .iat和.ix选择数据，以及处理缺失值的技巧，如reindex()和去除包含缺失值的行。" 100511795,8373209,CCF CSP 201712 游戏C++解法,"['算法', 'C++编程', '问题解决', '竞赛编程', 'CCF CSP']

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

Pandas是python的一个数据分析包，最初由AQR Capital Management于2008年4月开发，并于2009年底开源出来，目前由专注于Python数据包开发的PyData开发team继续开发和维护，属于PyData项目的一部分。

NumPy系统是Python的一种开源的数值计算扩展，可用来存储和处理大型矩阵。包括：1、一个强大的N维数组对象Array；2、比较成熟的（广播）函数库；3、用于整合C/C++和Fortran代码的工具包；4、实用的线性代数、傅里叶变换和随机数生成函数。numpy和稀疏矩阵运算包scipy配合使用更加方便。

Matplotlib 是一个 Python 的 2D绘图库，它以各种硬拷贝格式和跨平台的交互式环境生成出版质量级别的图形。

pandas中的数据类型：Series,DataFrame,Panel。

一、创建对象

1，通过传递一个list对象来创建一个Series，pandas会默认创建整型索引：

s=pd.Series([1,3,5,np.nan,6,8])

2，通过传递一个numpy array，时间索引以及标签创建一个DataFrame：

dates=pd.date_range("20120101",periods=6)
df=pd.DataFrame(np.random.randn(6,4), index=dates, columns=list("ABCD"))

3，通过传递一个能够被转换成类似序列结构的字典对象来创建一个DataFrame：

df2=pd.DataFrame({'A':1.,
'B':pd.Timestamp('20130102'),
'C':pd.Series(1,index=list(range(4)),dtype='float32'),
'D':np.array([3]*4,dtype='int32'),
'E':pd.Categorical(["test","train","test","train"]),
'F':'foo'
})

# 查看数据类型
df2.dtypes

二、查看数据

1，查看头部和尾部的行：