一、Pandas
Pandas是一个功能强大且易于使用的Python数据分析库,提供了高效的数据结构和数据分析工具,特别适合处理表格数据(如Excel表格、CSV文件等)。以下是Pandas在数据处理中的常见应用及其功能介绍。
导入Pandas库
import pandas as pd
数据结构
Pandas主要提供了两种数据结构:Series
和DataFrame
。
1. Series
Series是一种类似于一维数组的对象,它由一组数据(各种NumPy数据类型)和一组与之相关的数据标签(即索引)组成。
import pandas as pd
# 创建一个Series
s = pd.Series([1, 3, 5, np.nan, 6, 8])
print(s)
2. DataFrame
DataFrame是一个二维的表格数据结构,包含一组有序的列,每列可以是不同的数据类型(数值、字符串、布尔值等)
import pandas as pd
import numpy as np
# 创建一个DataFrame
data = {
'A': [1, 2, 3, 4],
'B': [np.nan, 2.5, 3.5, np.nan],
'C': ['foo', 'bar', 'baz', 'qux']
}
df = pd.DataFrame(data)
print(df)
数据读取
Pandas可以从多种数据源读取数据,例如CSV文件、Excel文件、SQL数据库等。
# 读取CSV文件
df = pd.read_csv('data.csv')
# 读取Excel文件
df = pd.read_excel('data.xlsx', sheet_name='Sheet1')
# 读取SQL数据库
import sqlite3
conn = sqlite3.connect('database.db')
df = pd.read_sql('SELECT * FROM table_name', conn)
数据清洗
数据清洗是数据分析中一个重要的步骤,Pandas提供了丰富的功能来处理缺失值、重复值等问题<