Pandas是Python的核心数据分析支持库,提供了快速、灵活、明确的数据结构,旨在简单、直观地处理关系型、标记型数据。Pandas 的目标是成为 Python 数据分析实践与实战的必备高级工具,其长远目标是成为最强大、最灵活、可以支持任何语言的开源数据分析工具。经过多年不懈的努力,Pandas 离这个目标已经越来越近了。
作者
header: 本文撰写工作已经
同步发布至知乎专栏:建模数学
系列文章(科学计算Python2小时)目录:李似:科学计算Python2小时-前言与目录zhuanlan.zhihu.com
pandas的资料超级多,这里举几个典型的例子。
Joyful Pandas 是一份非常详尽的pandas入门手册,包括索引、分组、变形、连接等一系列在实际编程环境中可能会用到的办法。这个东西是datawhale出的一本手册,我也不太清楚他们是搜集的一些内容还是自己从头编写的,反正知识非常的丰富。入门的话可以直接从里面的例题入手,反正时间上也没几天了,你肯定全都看不完。把里面的例题能读懂,然后跑随便跑一跑试一试就可以了。
再有就是阿里云天池的一些数据分析基础入门题目。有一些没有悬赏的题目,会有比较多的公开答案发布在天池上,他们的注释和思路起来都非常的详尽,非常适合什么都不懂的小白去膜拜大佬。
比如这一份
还有这个
import pandas as pd
import numpy as np
data = pd.read_csv("NASA_Facilities.csv")
print(data.index)# 序号
print(data.columns)# 表头
RangeIndex(start=0, stop=485, step=1)
Index(['Center', 'Center Search Status', 'Facility', 'FacilityURL', 'Occupied',
'Status', 'URL Link', 'Record Date', 'Last Update', 'Country',
'Location', 'City', 'State', 'Zipcode'],
dtype='object')
data.head(5) #前5行
#data.tail(5) # 后5行
data.info() # 数据的统计量
data['State'].unique() # 相当于取set 指提取出不重复项
array(['MS', 'CA', 'MD', 'OH', 'AL', 'LA', 'TX', 'FL', 'DC', 'VA'],
dtype=object)
data['State'].value_counts() # 提取出不重复项及频数
AL 136
FL 84
VA 60
CA 56
OH 42
MD 32
MS 29
DC 23
LA 17
TX 6
Name: State, dtype: int64
data['State'].value_counts().head(3) # 这些方法也可以取前若干行哦
AL 136
FL 84
VA 60
Name: State, dtype: int64
data[['Center','Location','State']]# 或者我们只对其中若干列感兴趣
dataIndex = data.set_index('State')# 以State作为索引
dataIndex.loc['MS'].head() # 提取出State==MS的数据行
data.isna().sum().nlargest()#或者我们先统计一下有没有缺失数据 输出最大的5个
FacilityURL 485
URL Link 340
Occupied 92
Status 86
Last Update 6
dtype: int64