Pandas 是一个强大的 Python 数据分析库,专门用于处理和分析数据。
Pandas 主要用来处理结构化数据。
一、提供两种主要的数据结构:
1.Series
一维数组,可以保存任何数据类型。类似于列表,但是带有标签(索引)。
import pandas as pd
# 从列表创建 Series
s = pd.Series([1, 2, 3, 4],index=["a","b","c","d"])
print(s['a'])
#通过索引来访问元素
2.DataFrame
二维表格结构,类似于excel中的表格或者数据库中的表格。它可以包含不同类型的数据,具有行标签和列标签。
import pandas as pd
# 从字典创建 DataFrame
df = pd.DataFrame({
'A': [1, 2, 3],
'B': [4, 5, 6]
})
# 从列表创建 DataFrame
df = pd.DataFrame([
[1, 4],
[2, 5],
[3, 6]
], columns=['A', 'B'])
###效果是一样的
二、主要功能
1.数据清洗和准备
1.处理缺失值
1.1:df.isnull().sum() 查找缺失值
1.2:df.dropna() 删除缺失值
1.3:df.fillna(x)填充缺失值
2.处理重复数据
2.1:df.duplicated() 检测重复数据
2.2:df.drop_duplicates() 删除重复行
3.数据转换和标准化
4.处理异常值
5.处理数据的缺失和不一致
6.数据合并和连接
6.1:合并(merge)
6.2:连接(concat)
2. 数据的导入和导出
pandas 支持从各种格式导入和导出数据,包括:csv,excel,sql,json等
导入数据 导出数据 csv pd.read_csv df.to_csv excel pd.read_excel df.to_excel sql pd.read_sql df.to_sql json pd.read_json df.to_json
3.数据选择和过滤
pandas
提供多种方法来选择和过滤数据:基于行的选择:df.loc ;df.iloc
基于列的选择:df[["name1","name2"]]
基于条件的选择等
4.数据可视化
pandas库和matplotlib库合作来进行数据可视化的操作