一、Pandas库介绍
Pandas 是基于NumPy 的一种工具,该工具是为解决数据分析任务而创建的。Pandas 纳入了大量库和一些标准的数据模型,提供了高效地操作大型数据集所需的工具。Pandas提供了大量能使我们快速便捷地处理数据的函数和方法。你很快就会发现,它是使Python成为强大而高效的数据分析环境的重要因素之一。
1.1数据类型
- Series:一维数组,与Numpy中的一维array类似。二者与Python基本的数据结构List也很相近。Series如今能保存不同种数据类型,字符串、boolean值、数字等都能保存在Series中。
- Time- Series:以时间为索引的Series。
- DataFrame:二维的表格型数据结构。很多功能与R中的data.frame类似。可以将DataFrame理解为Series的容器。
- Panel :三维的数组,可以理解为DataFrame的容器。
- Panel4D:是像Panel一样的4维数据容器。
- PanelND:拥有factory集合,可以创建像Panel4D一样N维命名容器的模块。
2.1 Pandas安装
使用Python自带的pip工具下载Pandas:
pip install pandas #如果下载速度慢,可以换成下面代码
# pip install pandas -i http://pypi.douban.com/simple/ numpy #使用国内豆瓣源下载,一般速度会更快
# pip install pandas -i http://pypi.douban.com/simple/--trusted-host pypi.douban.com #如果上一个提示不受信任,就使用这个,此参数“--trusted-host”表示信任
Conda环境下载Pandas:
conda install pandas
2.2 Pandas导入
import pandas as pd #导入pandas包
3.1 Pandas基本功能
1. 读取数据
data = pd.read_csv( my_file.csv )
data = pd.read_csv( my_file.csv , sep= ; , encoding= latin-1 , nrows=1000, skiprows=[2,5])
####函数参数说明
# my_file.csv:你的文件路径
# sep: 分隔符,比如csv文件的分隔符是“;”,那么你就需要指定出它
# encoding:编码设置为 latin-1 来读取文件
# nrows:表示读取文件前500行数据
# skiprows:表示你在读取文件的时候会跳过第 2 行和第 5 行
## 常用的文件类型
# excel: read_excel
# csv: read_csv
2. 写数据
data.to_csv( my_new_file.csv , index=None)
###参数说明
# my_new_file.csv:文件保存位置
# index :是否为保存的文件添加索引
####常保存类型
# csv: data.to_csv
# excel: data.to_excel
3.检查数据
data.describe() #给出数据的行数和列数
4.查看数据
data.head(5) #查看数据前5行数据,当数据量大时候好使
data.loc[13] #查看数据第13行
data.tail() #查看数据最后一行
data.loc[8, column_name] #查看数据第八行column_name列的值
data.loc[range(3,7)] #等效于data.loc[3,4,5,6](左闭右开) 查看数据第3到6行
5.逻辑运算
data[data[ column_1 ]== french ] #打印出数据中所有column_1列值为french的行
data[(data[ column_1 ]== french ) & (data[ year_born ]==1990)]
#打印出数据中所有column_1列值为french且year_born列值为1990的行
data[(data[ column_1 ]== french ) & (data[ year_born ]==1990) & ~(data[ city ]== London )]
# &:and ~:not |:or
data[data[ column_1 ].isin([ french , english ])] #多个or同时时候可以考虑用.isin()函数代替
6.数据值统计
data[ column_1 ].value_counts()
数据展示:
使用.value_counts()返回的结果
Pandas库是Python语言处理数据的重要库之一,整理了一些最基本的使用方法以供学习。