【pandas】pandas处理数据常用函数

All_In_gzx_cc

已于 2023-09-14 16:56:15 修改

阅读量184

点赞数

分类专栏：【python】文章标签： pandas python

于 2023-09-14 16:52:32 首次发布

【python】专栏收录该内容

43 篇文章 6 订阅

订阅专栏

转载自：https://www.runoob.com/pandas/pandas-functions.html
仅作学习记录

文章目录

1. 读取和保存数据
2. 查看数据
3. 数据清洗
4. 数据选择和切片
5. 数据排序
6. 数据分组和聚合
7. 数据合并
8. 数据选择和过滤
9. 数据统计和描述
示例

1. 读取和保存数据

df.to_csv 写入到 csv 文件
pd.read_csv 读取 csv 文件
df.to_json 写入到 json 文件
pd.read_json 读取 json 文件
df.to_html 写入到 html 文件
pd.read_html 读取 html 文件
df.to_excel 写入到 excel 文件
pd.read_excel 读取 excel 文件

import pandas as pd

# 从 CSV 文件中读取数据
df = pd.read_csv('data.csv')

# 从 Excel 文件中读取数据
df = pd.read_excel('data.xlsx')

# 从 SQL 数据库中读取数据
import sqlite3
conn = sqlite3.connect('database.db')
df = pd.read_sql('SELECT * FROM table_name', conn)

# 从 JSON 字符串中读取数据
json_string = '{"name": "John", "age": 30, "city": "New York"}'
df = pd.read_json(json_string)

# 从 HTML 页面中读取数据
url = 'https://www.runoob.com'
dfs = pd.read_html(url)
df = dfs[0] # 选择第一个数据框

DataFrame.to_csv(path_or_buf=None, sep=', ', na_rep='', float_format=None, columns=None, header=True, index=True,
                 index_label=None, mode='w', encoding=None, compression=None, quoting=None, quotechar='"',
                 line_terminator='\n', chunksize=None, tupleize_cols=None, date_format=None, doublequote=True,
                 escapechar=None, decimal='.')

参数：

path_or_buf : 文件路径，如果没有指定则将会直接返回字符串的 json
sep : 输出文件的字段分隔符，默认为 “,”
na_rep : 用于替换空数据的字符串，默认为’’
float_format : 设置浮点数的格式（几位小数点）
columns : 要写的列
header : 是否保存列名，默认为 True ，保存
index : 是否保存索引，默认为 True ，保存
index_label : 索引的列标签名

2. 查看数据

在这里插入图片描述

# 显示前五行数据
df.head()

# 显示后五行数据
df.tail()

# 显示数据信息
df.info()

# 显示基本统计信息
df.describe()

# 显示数据的行数和列数
df.shape

import pandas as pd

data = [
    {"name": "Google", "likes": 25, "url": "https://www.google.com"},
    {"name": "Runoob", "likes": 30, "url": "https://www.runoob.com"},
    {"name": "Taobao", "likes": 35, "url": "https://www.taobao.com"}
]

df = pd.DataFrame(data)
# 显示前两行数据
print(df.head(2))
# 显示前最后一行数据
print(df.tail(1))


以上实例输出结果为：
	     name  likes                     url
	0  Google     25  https://www.google.com
	1  Runoob     30  https://www.runoob.com
	     name  likes                     url
	2  Taobao     35  https://www.taobao.com

3. 数据清洗

在这里插入图片描述

# 删除包含缺失值的行或列
df.dropna()

# 将缺失值替换为指定的值
df.fillna(0)

# 将指定值替换为新值
df.replace('old_value', 'new_value')

# 检查是否有重复的数据
df.duplicated()

# 删除重复的数据
df.drop_duplicates()

4. 数据选择和切片

在这里插入图片描述

df实际上可以理解为value为一个有序序列的字典结构，此时key为列名，value为列值，index索引为行，因此直接df[column_name]是可以把列值取出来的。

以上函数不再详述。loc，iloc，ix可以归类记忆。

选择指定的列，方法：filter（items = 列名序列）

列名匹配正则表达式进行筛选：filter（regex=‘regex’）

sample（n）：随机选择 n 行数据

# 选择指定的列
df['column_name']

# 通过标签选择数据
df.loc[row_index, column_name]

# 通过位置选择数据
df.iloc[row_index, column_index]

# 通过标签或位置选择数据
df.ix[row_index, column_name]

# 选择指定的列
df.filter(items=['column_name1', 'column_name2'])

# 选择列名匹配正则表达式的列
df.filter(regex='regex')

# 随机选择 n 行数据
df.sample(n=5)

5. 数据排序

在这里插入图片描述

# 按照指定列的值排序
df.sort_values('column_name')

# 按照多个列的值排序
df.sort_values(['column_name1', 'column_name2'], ascending=[True, False])

# 按照索引排序
df.sort_index()

6. 数据分组和聚合

在这里插入图片描述

# 按照指定列进行分组
df.groupby('column_name')

# 对分组后的数据进行聚合操作
df.aggregate('function_name')

# 生成透视表
df.pivot_table(values='value', index='index_column', columns='column_name', aggfunc='function_name')

7. 数据合并

在这里插入图片描述

# 将多个数据框按照行或列进行合并
df = pd.concat([df1, df2])

# 按照指定列将两个数据框进行合并
df = pd.merge(df1, df2, on='column_name')

8. 数据选择和过滤

在这里插入图片描述

9. 数据统计和描述

在这里插入图片描述

示例

设我们有如下的 JSON 数据，数据保存到 data.json 文件：
data.json文件如下：

[
  {
    "name": "Alice",
    "age": 25,
    "gender": "female",
    "score": 80
  },
  {
    "name": "Bob",
    "age": null,
    "gender": "male",
    "score": 90
  },
  {
    "name": "Charlie",
    "age": 30,
    "gender": "male",
    "score": null
  },
  {
    "name": "David",
    "age": 35,
    "gender": "male",
    "score": 70
  }
]

我们可以使用 Pandas 读取 JSON 数据，并进行数据清洗和处理、数据选择和过滤、数据统计和描述等操作，具体如下：

import pandas as pd

# 读取 JSON 数据
df = pd.read_json('data.json')

# 删除缺失值
df = df.dropna()

# 用指定的值填充缺失值
df = df.fillna({'age': 0, 'score': 0})

# 重命名列名
df = df.rename(columns={'name': '姓名', 'age': '年龄', 'gender': '性别', 'score': '成绩'})

# 按成绩排序
df = df.sort_values(by='成绩', ascending=False)

# 按性别分组并计算平均年龄和成绩
grouped = df.groupby('性别').agg({'年龄': 'mean', '成绩': 'mean'})

# 选择成绩大于等于90的行，并只保留姓名和成绩两列
df = df.loc[df['成绩'] >= 90, ['姓名', '成绩']]

# 计算每列的基本统计信息
stats = df.describe()

# 计算每列的平均值
mean = df.mean()

# 计算每列的中位数
median = df.median()

# 计算每列的众数
mode = df.mode()

# 计算每列非缺失值的数量
count = df.count()


输出结果如下：
	# df
	   姓名  年龄 性别  成绩
	1  Bob   0  male  90
	
	# grouped
	             年龄  成绩
	性别                
	female  25.000000  80
	male    27.500000  80
	
	# stats
	         成绩
	count   1.0
	mean   90.0
	std     NaN
	min    90.0
	25%    90.0
	50%    90.0
	75%    90.0
	max    90.0
	
	# mean
	成绩    90.0
	dtype: float64
	
	# median
	成绩    90.0
	dtype: float64
	
	# mode
	    姓名    成绩
	0  Bob  90.0
	
	# count
	姓名    1
	成绩    1
	dtype: int64