【记录机器学习】——python的pandas库的操作代码实现

faderbic

于 2024-07-26 18:13:10 发布

阅读量146

点赞数 7

文章标签： python pandas 开发语言

本文链接：https://blog.csdn.net/faderbitch/article/details/140699426

版权

pandas基础操作

pandas数据清洗

pandas基础操作

pandas是 Python 的核心数据分析支持库，提供了快速、灵活、明确的数据结构，在任何机器学习项目中，第一步都是熟悉数据。Pandas 是数据科学家用于探索和操作数据的主要工具，大多数人在代码中将 pandas 简称为 pd。Pandas 库中最重要的部分是 DataFrame，DataFrame 保存的数据类型您可以想象成一个表格，类似于 Excel 中的工作表或 SQL 数据库中的表。以下是一些 pandas 的基本操作及代码实现：

import pandas as pd

data_path = '../data.csv' # 为了更方便地访问，将文件路径保存到变量 
data = pd.read_csv('data.csv')  # 读取 CSV 文件并将数据存储在名为data的DataFrame中
data.describe() # 数据的摘要

data.describe结果为原始数据集中的每列的一些特征。第一个数字，即 count（计数），显示具有非缺失值的行数。第二个值是 mean（均值），即平均值。在其下方，std 是标准偏差，用于衡量数值的分散程度。 min（最小值）、25%、50%、75% 和 max（最大值）值，将每列从低到高排序。第一个（最小）值是 min。四分之一的位置是 25% 的值（发音为“第 25 百分位数”），第 50 和 75 百分位数的定义类似，而 max 是最大值。

import pandas as pd

data_path = '../data.csv' # 为了更方便地访问，将文件路径保存到变量 
data = pd.read_csv('data.csv')  # 读取 CSV 文件并将数据存储在名为data的DataFrame中
data.describe() # 数据的摘要

data.head()  # 查看前 5 行，默认 5 行，可指定行数，如 data.head(10) 查看前 10 行

data.info()  # 包括列的数据类型、非空值数量等

column_data = data['column_name']  # 选择名为 'column_name' 的列

filtered_data = data[data['column_name'] > value]  # 选择 'column_name' 列中大于某个值的行

sorted_data = data.sort_values(by='column_name')  # 按 'column_name' 列的值进行排序

data.dropna()  # 删除包含缺失值的行

data.fillna(value)  # 用指定值填充缺失值

group_data = data.groupby('column_name').mean()  # 按 'column_name' 列进行分组，并计算每组的平均值

pandas数据清洗

使用 pandas 进行数据清洗通常涉及以下几个常见的步骤和操作：

import pandas as pd

data = pd.read_csv('your_file.csv')  # 可以是 CSV、Excel 等格式

data.isnull().sum()  # 查看每列的缺失值数量

data.dropna(axis=0, how='any')  # 按行删除，'any' 表示只要有缺失值就删除

data.dropna(axis=1, how='any')  # 按列删除

data.fillna(0)  # 用 0 填充

data.fillna(data.mean())  # 用均值填充

data.fillna(data.median())  # 用中位数填充

data.drop_duplicates()  # 删除完全重复的行

from sklearn.preprocessing import MinMaxScaler
scaler = MinMaxScaler()

data['column_name'] = scaler.fit_transform(data['column_name'].values.reshape(-1, 1))
data['column_name'] = data['column_name'].astype(int)  # 转换为整数类型
data['column_name'] = data['column_name'].str.strip()
data['new_column'] = data['column_name'].str.extract('(part_of_string)')

faderbic

关注

7
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
【记录机器学习】——python的pandas库的操作代码实现

min（最小值）、25%、50%、75% 和 max（最大值）值，将每列从低到高排序。四分之一的位置是 25% 的值（发音为“第 25 百分位数”），第 50 和 75 百分位数的定义类似，而 max 是最大值。是 Python 的核心数据分析支持库，提供了快速、灵活、明确的数据结构，在任何机器学习项目中，第一步都是熟悉数据。Pandas 库中最重要的部分是 DataFrame，DataFrame 保存的数据类型您可以想象成一个表格，类似于 Excel 中的工作表或 SQL 数据库中的表。
复制链接

扫一扫