Pandas基础

xc.urban

于 2023-10-09 18:52:58 发布

阅读量20

点赞数

文章标签： pandas

Numpy包含Pandas，Pandas 有两种数据结构：Series和DataFrame，Pandas经过几个版本的更新，目前已经成为数据清洗、处理和分析的不二选择。

1. Pandas的优势如下：

科学计算方面NumPy是优势，但NumPy中没有标签，数据清理、数据处理就不是其强项了。

而DataFrame有标签，就像SQL中的表一样，所以在数据处理方面DataFrame就更胜一筹了，具体包含以下几方面：
（1）读取数据方面
Pandas提供强大的IO读取工具，csv格式、Excel文件、数据库等都可以非常简便地读取，对于大数据，pandas也支持大文件的分块读取。
（2）在数据清洗方面
面对数据集，我们遇到最多的情况就是存在缺失值，Pandas把各种类型数据类型的缺失值统一称为NaN,Pandas提供许多方便快捷的方法来处理这些缺失值NaN。
（3）分析建模阶段
在分析建模阶段，Pandas自动且明确的数据对齐特性，非常方便地使新的对象可以正确地与一组标签对齐，由此，Pandas就可以非常方便地将数据集进行拆分-重组操作。
（4）结果可视化方面
结果展示方面，我们都知道Matplotlib是个数据视图化的好工具，Pandas与Matplotlib搭配，不用复杂的代码，就可以生成多种多样的数据视图。

2.Pandas数据结构

Series是一种类似一维数据的数据结构，由数据(values)及索引(indexs)组成。其一大特点是可以使用标签索引，方便简洁。Series可以由以下代码自定义索引，当没有自定义时默认从0开始。

s2=Series([1,3,6,-1,2,8],index=['a','c','d','e','b','g'])  #定义标签索引
s2

DataFrame是一个表格型的数据结构，它有一组序列，每列的数据可以为不同类型（NumPy数据组中数据要求为相同类型）,它既有行索引，也有列索引。columns就像数据库表的列表，index是索引，values就是值。

a1=np.array([1,2,3,4])
a2=np.array([5,6,7,8])
a3=np.array(['a','b','c','d'])
df=pd.DataFrame({'a':a1,'b':a2,'c':a3})
df

xc.urban

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫