python中pandas库的使用以及在机器学习数据处理中的简单应用

本文链接：https://blog.csdn.net/OHHHHH890/article/details/139323166

一、Pandas

Pandas是一个功能强大且易于使用的Python数据分析库，提供了高效的数据结构和数据分析工具，特别适合处理表格数据（如Excel表格、CSV文件等）。以下是Pandas在数据处理中的常见应用及其功能介绍。

导入Pandas库

import pandas as pd

数据结构

Pandas主要提供了两种数据结构：Series和DataFrame。

1. Series

Series是一种类似于一维数组的对象，它由一组数据（各种NumPy数据类型）和一组与之相关的数据标签（即索引）组成。

import pandas as pd

# 创建一个Series
s = pd.Series([1, 3, 5, np.nan, 6, 8])
print(s)

2. DataFrame

DataFrame是一个二维的表格数据结构，包含一组有序的列，每列可以是不同的数据类型（数值、字符串、布尔值等）

import pandas as pd
import numpy as np

# 创建一个DataFrame
data = {
    'A': [1, 2, 3, 4],
    'B': [np.nan, 2.5, 3.5, np.nan],
    'C': ['foo', 'bar', 'baz', 'qux']
}
df = pd.DataFrame(data)
print(df)

数据读取

Pandas可以从多种数据源读取数据，例如CSV文件、Excel文件、SQL数据库等。

# 读取CSV文件
df = pd.read_csv('data.csv')

# 读取Excel文件
df = pd.read_excel('data.xlsx', sheet_name='Sheet1')

# 读取SQL数据库
import sqlite3
conn = sqlite3.connect('database.db')
df = pd.read_sql('SELECT * FROM table_name', conn)