原标题:Pandas 常见的基本方法
作者:实验楼
前言:
Pandas 是非常著名的开源数据处理工具,我们可以通过它对数据集进行快速读取、转换、过滤、分析等一系列操作。除此之外,Pandas 拥有强大的缺失数据处理与数据透视功能,可谓是数据预处理中的必备利器。文章带你学会 Pandas 中的一些常用的基本方法。
知识点:
数据读取与存储Head & Tail统计方法计算方法标签对齐排序
数据文件:
学习本课程之前,请先打开在线环境终端,下载本文可能会用到的两个数据文件。
wget http://labfile.oss.aliyuncs.com/courses/906/los_census.csvwget http://labfile.oss.aliyuncs.com/courses/906/los_census.txt
两个文件均为为洛杉矶人口普查数据,仅格式有区别。
下面的内容均在 iPython 交互式终端中演示,你可以通过在线环境左下角的应用程序菜单 > 附件打开。如果你在本地进行练习,推荐使用 Jupyter Notebook 环境。
Pandas 常见的基本方法
1 数据读取与存储
Pandas 支持大部分常见数据文件读取与存储。一般清楚下,读取文件的方法以 pd.read_ 开头,而写入文件的方法以 pd.to_ 开头。详细的表格如下。
拿刚刚下载好的数据文件举例,如果没有下载,请看文章开头的数据文件的获取方法。
import pandas as pddf = pd.read_csv("los_census.csv") #读取 csv 文件print df
可以看到,文件已经读取出来了。由于列数太多,所以分段显示了。输出的最下方会有一个行数和列数的统计。这里是 319 行 X 7 列。
我们可以发现,由 pandas 读取的文件就已经是 DataFrame 结构了。上面演示了 csv 文件的读取,其余格式的文件也很相似。
不过,很多时候我们拿到手的数据是像 los_census.txt 文件样式的数据,如下图所示。
import pandas as pddf = pd.read_table("los_census.txt") #读取 txt 文件print df
其实 los_census.txt 也就是 los_census.csv 文件,因为 csv 文件又叫逗号分隔符文件,数据之间采用逗号分割。
那么,