【记录机器学习】——python的pandas库的操作代码实现

目录

pandas基础操作

pandas数据清洗


pandas基础操作

pandas是 Python 的核心数据分析支持库,提供了快速、灵活、明确的数据结构,在任何机器学习项目中,第一步都是熟悉数据。Pandas 是数据科学家用于探索和操作数据的主要工具,大多数人在代码中将 pandas 简称为 pd。Pandas 库中最重要的部分是 DataFrame,DataFrame 保存的数据类型您可以想象成一个表格,类似于 Excel 中的工作表或 SQL 数据库中的表。以下是一些 pandas 的基本操作及代码实现:

import pandas as pd

data_path = '../data.csv' # 为了更方便地访问,将文件路径保存到变量 
data = pd.read_csv('data.csv')  # 读取 CSV 文件并将数据存储在名为data的DataFrame中
data.describe() # 数据的摘要

data.describe结果为原始数据集中的每列的一些特征。第一个数字,即 count(计数),显示具有非缺失值的行数。 第二个值是 mean(均值),即平均值。在其下方,std 是标准偏差,用于衡量数值的分散程度。  min(最小值)、25%、50%、75% 和 max(最大值)值,将每列从低到高排序。第一个(最小)值是 min。四分之一的位置是 25% 的值(发音为“第 25 百分位数”),第 50 和 75 百分位数的定义类似,而 max 是最大值。

import pandas as pd

data_path = '../data.csv' # 为了更方便地访问,将文件路径保存到变量 
data = pd.read_csv('data.csv')  # 读取 CSV 文件并将数据存储在名为data的DataFrame中
data.describe() # 数据的摘要

data.head()  # 查看前 5 行,默认 5 行,可指定行数,如 data.head(10) 查看前 10 行

data.info()  # 包括列的数据类型、非空值数量等

column_data = data['column_name']  # 选择名为 'column_name' 的列

filtered_data = data[data['column_name'] > value]  # 选择 'column_name' 列中大于某个值的行

sorted_data = data.sort_values(by='column_name')  # 按 'column_name' 列的值进行排序

data.dropna()  # 删除包含缺失值的行

data.fillna(value)  # 用指定值填充缺失值

group_data = data.groupby('column_name').mean()  # 按 'column_name' 列进行分组,并计算每组的平均值

pandas数据清洗

使用 pandas 进行数据清洗通常涉及以下几个常见的步骤和操作:

import pandas as pd

data = pd.read_csv('your_file.csv')  # 可以是 CSV、Excel 等格式

data.isnull().sum()  # 查看每列的缺失值数量

data.dropna(axis=0, how='any')  # 按行删除,'any' 表示只要有缺失值就删除

data.dropna(axis=1, how='any')  # 按列删除

data.fillna(0)  # 用 0 填充

data.fillna(data.mean())  # 用均值填充

data.fillna(data.median())  # 用中位数填充

data.drop_duplicates()  # 删除完全重复的行

from sklearn.preprocessing import MinMaxScaler
scaler = MinMaxScaler()

data['column_name'] = scaler.fit_transform(data['column_name'].values.reshape(-1, 1))
data['column_name'] = data['column_name'].astype(int)  # 转换为整数类型
data['column_name'] = data['column_name'].str.strip()
data['new_column'] = data['column_name'].str.extract('(part_of_string)')

  • 7
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值