【Python】进阶学习：pandas--read_csv()用法详解

高斯小哥

已于 2024-05-04 21:42:17 修改

阅读量3.1w

点赞数 85

分类专栏： Python基础【高质量合集】文章标签： python 学习 pandas

于 2024-03-04 12:24:58 首次发布

本文链接：https://blog.csdn.net/qq_41813454/article/details/136440865

版权

Python基础【高质量合集】专栏收录该内容

133 篇文章

订阅专栏

🚀【Python】进阶学习：pandas–read_csv()用法详解🚀

下滑查看解决方法
在这里插入图片描述

🌈 欢迎莅临我的个人主页 👈这里是我静心耕耘深度学习领域、真诚分享知识与智慧的小天地！🎇

🎓 博主简介：985高校的普通本硕，曾有幸发表过人工智能领域的 中科院顶刊一作论文，熟练掌握PyTorch框架。

🔧 技术专长：在CV、NLP及多模态等领域有丰富的项目实战经验。已累计一对一为数百位用户提供近千次专业服务，助力他们少走弯路、提高效率，近一年好评率100% 。

📝 博客风采：积极分享关于深度学习、PyTorch、Python相关的实用内容。已发表原创文章500余篇，代码分享次数逾四万次。

💡 服务项目：包括但不限于科研入门辅导、知识付费答疑以及个性化需求解决。

欢迎添加👉👉👉底部微信（gsxg605888）👈👈👈与我交流
（请您备注来意）
（请您备注来意）
（请您备注来意）

下滑查看解决方法

📚 一、为什么需要read_csv()？

在数据分析的旅程中，我们经常需要从CSV（Comma Separated Values，逗号分隔值）文件中读取数据。CSV是一种常见的数据存储格式，由于其简单性和通用性，被广泛应用于各种领域。Pandas库中的read_csv()函数为我们提供了一个方便、高效的方式来读取这些数据。

🔍 二、read_csv()的基本用法

使用read_csv()函数读取CSV文件的基本语法是：

import pandas as pd

data = pd.read_csv('file_path.csv')

其中，file_path.csv是你的CSV文件的路径。

例如，如果你有一个名为data.csv的文件，你可以这样读取它：

data = pd.read_csv('data.csv')
print(data)

输出：

  StringColumn  IntColumn  FloatColumn  BoolColumn MixedColumn
0            A          0     0.311623       False      class1
1            B          1     0.377196        True      class2
2            C          2     0.930861        True      class3

🛠️ 三、read_csv()的参数

read_csv()函数有许多参数可以帮助我们更好地处理数据。以下是一些常用的参数：

sep 或 delimiter：指定分隔符，默认为,。如果你的CSV文件使用的是其他分隔符，如\t（制表符），你可以这样指定：
```
data = pd.read_csv('data.csv', sep='\t')
```
header：指定表头行。默认为0，表示第一行是表头。如果CSV文件没有表头，你可以设置为None。
```
data = pd.read_csv('data.csv', header=None)
```
index_col：将某一列设置为索引。
```
data = pd.read_csv('data.csv', index_col=0)
```
输出：

usecols：选择读取的列。你可以传入一个列名的列表，或者一个整数列表来表示列的索引。

data = pd.read_csv('data.csv', usecols=['IntColumn', 'FloatColumn'])
print(data)

或者

data = pd.read_csv('data.csv', usecols=[1, 2])

输出：

   IntColumn  FloatColumn
0          0     0.311623
1          1     0.377196
2          2     0.930861

na_values：指定哪些值应被视为NaN（缺失值）。

data = pd.read_csv('data.csv', na_values=['N/A', 'nan'])

dtype：指定列的数据类型（谨慎使用，具体情况具体分析，容易报错）。

data = pd.read_csv('data.csv', dtype={'StringColumn': str, 'IntColumn': int})

这只是read_csv()函数的一部分参数，还有更多参数可以帮助你更好地处理CSV文件。

🛠️ 四、实际案例应用

假设你有一个名为sales.csv的CSV文件，其中包含以下数据：

date,product,sales
2023-01-01,A,100
2023-01-02,B,150
2023-01-03,A,200
2023-01-04,C,250

你可以使用read_csv()函数读取这个文件，并进行一些数据分析。

import pandas as pd

# 读取CSV文件
data= pd.read_csv('sales.csv')

# 查看数据
print(data)

print("*"*50)

# 计算每个产品的总销售额
total_sales = data.groupby('product')['sales'].sum()
print(total_sales)
print("*"*50)

# 计算每个日期的销售额
daily_sales = data.groupby('date')['sales'].sum()
print(daily_sales)

输出：

         date product  sales
0  2023-01-01       A    100
1  2023-01-02       B    150
2  2023-01-03       A    200
3  2023-01-04       C    250
**************************************************
product
A    300
B    150
C    250
Name: sales, dtype: int64
**************************************************
date
2023-01-01    100
2023-01-02    150
2023-01-03    200
2023-01-04    250
Name: sales, dtype: int64

这个例子中，我们首先使用read_csv()函数读取了CSV文件。然后，我们使用groupby()函数按产品和日期对数据进行分组，并使用sum()函数计算每个组的销售额。最后，我们打印了结果。