Pandas 操作 csv 文件

最新推荐文章于 2024-07-09 16:25:58 发布

Wang_Jiankun

最新推荐文章于 2024-07-09 16:25:58 发布

阅读量2.3k

点赞数 5

分类专栏： Python 数据分析与展示文章标签： pandas 机器学习数据处理

本文链接：https://blog.csdn.net/Wang_Jiankun/article/details/81430242

版权

Python 数据分析与展示专栏收录该内容

8 篇文章 1 订阅

订阅专栏

Pandas 操作 csv 文件

官方英文文档
 官方文档PDF下载
 中文文档

一、安装 Pandas

安装 Pandas：

pip3 install pandas

导入 Pandas：

import pandas as pd

二、csv 文件操作

1. 读取/加载文件

# 读取csv文件
df = pd.read_csv('file_name')

2. 查看文件信息

# 查看数据概况
df.info()

# 查看数值型列的数据分布汇总统计
df.describe()

# 查看行数和列数
df.shape()

# 查看头n行数据
df.head(n)

# 查看尾n行数据
df.tail(n)

# 查看标签/行名
df.index

# 查看列名
df.columns

# 查看数据内容
df.values

# 计算某一列的各个值的个数
df.列名.value_counts()

3. 访问数据

支持切片操作

# 通过行标签索引数据，等价于df.at[]
df.loc['行名':'行名', ['列名'，'列名']]

# 通过行号/位置索引数据，等价于df.iat[] 
df.iloc[0:5, 2:4]

# 通过标签或者行号索引行数据（基于loc和iloc 的混合）
df.ix[]

# 布尔索引，得到满足条件的行
df[df.A > 0]

# 在某列查找某一元素所在行
df[df.iloc[: , 0].isin([元素值])]

4. 数据处理

# 根据标签排序，axis=0表示行排序，=1表示列排序
df.sort_index(axis=1, ascending=False)

# 根据值排序
df.sort_values(by='列名')

# 丢弃某行/列数据
df.drop('行/类索引'，inplace=True)

# 丢弃NaN值
df.dropna(axis=0, how='any', inplace=True)

# 替换NaN值，加.列名可只替换该列的NaN值
df.fillna(value=0)

5. 保存数据

# 数据转为数据帧(DataFrame)对象
# 数据集为DataFrame格式时
data = pd.DataFrame([数据], index=['行名', '行名', ...)], columns=['列名', '列名', ...)])

# 数据集为numpy格式时
data = pd.DataFrame({'列名':[该列数据],'列名':[2,4]},index=['行名','行名'])

# 保存为csv文件
# index为False表示不保存行索引,header为False表示不保存列索引
data.to_csv("data.csv", index=False, header=False)