Pandas处理CSV文件的常用技巧

ManonLegrand

已于 2022-05-31 21:18:36 修改

阅读量2.3k

点赞数 3

文章标签： python 数据挖掘数据分析

于 2022-05-31 21:17:34 首次发布

本文链接：https://blog.csdn.net/caroline_wendy/article/details/125073632

版权

本文详细介绍了使用Pandas处理CSV文件的五个关键步骤：读取文件、统计列值频率、筛选特定值、遍历数据行及绘制直方图。在读取中文CSV时需注意编码问题，通过df.info()获取基本信息。利用value_counts()统计列值并绘制柱状图进行可视化，同时展示了如何筛选和操作数据以及遍历每一行。最后，文章提供了绘制直方图的完整代码示例。

摘要由CSDN通过智能技术生成

Pandas处理CSV文件，分为以下几步：

读取Pandas文件
统计列值出现的次数
筛选特定列值
遍历数据行
绘制直方图(柱状图📊)

读取Pandas文件

df = pd.read_csv(file_path, encoding='GB2312')
print(df.info())

注意：Pandas的读取格式默认是UTF-8，在中文CSV中会报错：

UnicodeDecodeError: 'utf-8' codec can't decode byte 0xd1 in position 2: invalid continuation byte

修改编码为 GB2312 ，即可，或者忽略encode转义错误，如下：

df = pd.read_csv(file_path, encoding='GB2312')
df = pd.read_csv(file_path, encoding='unicode_escape')

df.info()显示df的基本信息，例如：

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3840 entries, 0 to 3839
Data columns (total 16 columns):
 #   Column         Non-Null Count  Dtype  
---  ------         --------------  -----  
 0   实验时间批次         3840 non-null   object 
 1   物镜倍数           3840 non-null   object 
 2   板子编号           3840 non-null   object 
 3   板子编号及物镜倍数      3840 non-null   object 
 4   图名称            3840 non-null   object 
 5   细胞类型           3840 non-null   object 
 6   板子孔位置          3840 non-null   object 
 7   孔拍摄位置          3840 non-null   int64  
 8   细胞培养基          3840 non-null   object 
 9   细胞培养时间（小时）     3840 non-null   int64  
 10  扰动类别           3840 non-null   object 
 11  扰动处理时间（小时）     3840 non-null   int64  
 12  扰动处理浓度（ug/ml）  3840 non-null   float64
 13  标注激活(1/0)      3840 non-null   int64  
 14  unique         3840 non-null   object 
 15  tvt            3840