摘要:通过pandas的DataFrame,实现平面文件表格内容的读写,使用智能切片loc等获得子集信息。
一、概述
![1309d7f758fb438e0b2dd13056b7d2dc.png](https://i-blog.csdnimg.cn/blog_migrate/f174d0d5ca184eeb23e02646e244c9c7.jpeg)
图1-1
Pandas是基于numpy的一套模块,所以也拥有numpy强大的分析功能。Pandas 包括1维Series和2维DataFrame2个主要的数据结构,因为经常处理表格数据的需要,本文重点了解下DataFrame的数据读写和切片部分内容。
示例文件sales1.csv内容:
![1c0d28688e9ca0b79f6942b002071f50.png](https://i-blog.csdnimg.cn/blog_migrate/3f06515d81a6b1494e9e7d4613894818.jpeg)
图1-2
Pandas读取后,如果未明确指定索引名称,在dataframe中会自动新增数值的索引列(红色框部分):
![b2f6b84b0a1f3a3b4e5310e945236e2d.png](https://i-blog.csdnimg.cn/blog_migrate/39bcea29a568ceda3d1cd46efdd4912a.jpeg)
图1-3
二、功能展示
首先,完成模块的导入:
import numpy as np
import pandas as pd
1、文件读写
Pandas可以轻松完成对平面文件(CSV和分隔)、Excel文件的数据读取和保存工作。
1.1、 读写编码
import numpy as npimport pandas as pd#################输入文件input_file = r'E:pytestsales1.csv'#输出文件output_file = r'E:pytestoutput.csv'#1、读取csv文件data = pd.read_csv(input_file)print(data)#2、修改,将sex列的girl修改为‘女’,其他修改为‘男’data['sex']=np.where(data['sex']=='girl','女','男')#3、写出,设置写出字符编码为'utf-8_sig&#