前言:
Pandas 是一个开源的 Python 数据分析库,它提供了高性能、易于使用的数据结构和数据分析工具。Pandas提供 了方便的类表格和类SQL的操作,同时提供了强大的缺失值处理方法,可以方便的进行数据导入、选取、清洗、处理、合并、统计分析等操作。最核心的两个数据结构是 DataFrame 和 Series。
1 DataFrame和 Series的用法
DataFrame 是 Pandas 库中另一个基本的数据结构。DataFrame 可以看作是一个表格型的数据结构,它含有一组有序的列,每列可以是不同的值类型(数值、字符串、布尔值等)。DataFrame 既有行索引也有列索引,它可以被看作是由 Series 组成的字典(共用同一个索引)。
Pandas中的Series对象是一种带有标签数据的一维数组,标签在Pandas
中有对应的数据类型"Index", Series类似于一维数组与字典的结合。
1.1 创建一个 DataFrame 的示例:
#!/usr/bin/env python
# coding=utf-8
"""
# @Time : 2024/4/14 14:14
# @Author : Summer
# @File : pandas_test
# @describe:
"""
import pandas as pd
# 创建一个 DataFrame 对象
data = {
'Country': ['Belgium', 'India', 'Brazil'],
'Capital': ['Brussels', 'New Delhi', 'Brasília'],
'Population': [11190846, 1303171035, 207847528]}
df = pd.DataFrame(data)
# 查看 DataFrame 对象
print(df)
'''
Country Capital Population
0 Belgium Brussels 11190846
1 India New Delhi 1303171035
2 Brazil Brasília 207847528
'''
访问和操作 DataFrame 数据:
#!/usr/bin/env python
# coding=utf-8
"""
# @Time : 2024/4/14 14:14
# @Author : Summer
# @File : pandas_test
# @describe:
"""
import pandas as pd
# 创建一个 DataFrame 对象
data = {
'Country': ['Belgium', 'India', 'Brazil'],
'Capital': ['Brussels', 'New Delhi', 'Brasília'],
'Population': [11190846, 1303171035, 207847528]}
df = pd.DataFrame(data)
# 访问列数据
print(df['Capital']) # 输出: "Capital" 列的值
# 添加新列
df['Area'] = pd.Series([30510, 3287263, 8515767], index=[0, 1, 2])
print(df)
# 访问行数据,通过行索引 (loc) 或行数 (iloc)
print