目录
pandas基础操作
pandas
是 Python 的核心数据分析支持库,提供了快速、灵活、明确的数据结构,在任何机器学习项目中,第一步都是熟悉数据。Pandas 是数据科学家用于探索和操作数据的主要工具,大多数人在代码中将 pandas 简称为 pd。Pandas 库中最重要的部分是 DataFrame,DataFrame 保存的数据类型您可以想象成一个表格,类似于 Excel 中的工作表或 SQL 数据库中的表。以下是一些 pandas
的基本操作及代码实现:
import pandas as pd
data_path = '../data.csv' # 为了更方便地访问,将文件路径保存到变量
data = pd.read_csv('data.csv') # 读取 CSV 文件并将数据存储在名为data的DataFrame中
data.describe() # 数据的摘要
data.describe结果为原始数据集中的每列的一些特征。第一个数字,即 count(计数),显示具有非缺失值的行数。 第二个值是 mean(均值),即平均值。在其下方,std 是标准偏差,用于衡量数值的分散程度。 min(最小值)、25%、50%、75% 和 max(最大值)值,将每列从低到高排序。第一个(最小)值是 min。四分之一的位置是 25% 的值(发音为“第 25 百分位数”),第 50 和 75 百分位数的定义类似,而 max 是最大值。
import pandas as pd
data_path = '../data.csv' # 为了更方便地访问,将文件路径保存到变量
data = pd.read_csv('data.csv') # 读取 CSV 文件并将数据存储在名为data的DataFrame中
data.describe() # 数据的摘要
data.head() # 查看前 5 行,默认 5 行,可指定行数,如 data.head(10) 查看前 10 行
data.info() # 包括列的数据类型、非空值数量等
column_data = data['column_name'] # 选择名为 'column_name' 的列
filtered_data = data[data['column_name'] > value] # 选择 'column_name' 列中大于某个值的行
sorted_data = data.sort_values(by='column_name') # 按 'column_name' 列的值进行排序
data.dropna() # 删除包含缺失值的行
data.fillna(value) # 用指定值填充缺失值
group_data = data.groupby('column_name').mean() # 按 'column_name' 列进行分组,并计算每组的平均值
pandas数据清洗
使用 pandas
进行数据清洗通常涉及以下几个常见的步骤和操作:
import pandas as pd
data = pd.read_csv('your_file.csv') # 可以是 CSV、Excel 等格式
data.isnull().sum() # 查看每列的缺失值数量
data.dropna(axis=0, how='any') # 按行删除,'any' 表示只要有缺失值就删除
data.dropna(axis=1, how='any') # 按列删除
data.fillna(0) # 用 0 填充
data.fillna(data.mean()) # 用均值填充
data.fillna(data.median()) # 用中位数填充
data.drop_duplicates() # 删除完全重复的行
from sklearn.preprocessing import MinMaxScaler
scaler = MinMaxScaler()
data['column_name'] = scaler.fit_transform(data['column_name'].values.reshape(-1, 1))
data['column_name'] = data['column_name'].astype(int) # 转换为整数类型
data['column_name'] = data['column_name'].str.strip()
data['new_column'] = data['column_name'].str.extract('(part_of_string)')