Python的pandas库基础使用

最新推荐文章于 2024-06-07 20:15:52 发布

Lancet、

最新推荐文章于 2024-06-07 20:15:52 发布

阅读量206

点赞数

分类专栏： Python基础文章标签： pandas python 数据分析

本文链接：https://blog.csdn.net/AItichengxvman/article/details/129525712

版权

Python基础专栏收录该内容

1 篇文章 0 订阅

订阅专栏

一、Pandas库介绍

Pandas 是基于NumPy 的一种工具，该工具是为解决数据分析任务而创建的。Pandas 纳入了大量库和一些标准的数据模型，提供了高效地操作大型数据集所需的工具。Pandas提供了大量能使我们快速便捷地处理数据的函数和方法。你很快就会发现，它是使Python成为强大而高效的数据分析环境的重要因素之一。

1.1数据类型

Series：一维数组，与Numpy中的一维array类似。二者与Python基本的数据结构List也很相近。Series如今能保存不同种数据类型，字符串、boolean值、数字等都能保存在Series中。
Time- Series：以时间为索引的Series。
DataFrame：二维的表格型数据结构。很多功能与R中的data.frame类似。可以将DataFrame理解为Series的容器。
Panel ：三维的数组，可以理解为DataFrame的容器。
Panel4D：是像Panel一样的4维数据容器。
PanelND：拥有factory集合，可以创建像Panel4D一样N维命名容器的模块。

2.1 Pandas安装

使用Python自带的pip工具下载Pandas：

pip install pandas #如果下载速度慢，可以换成下面代码
# pip install pandas  -i http://pypi.douban.com/simple/ numpy #使用国内豆瓣源下载，一般速度会更快
# pip install pandas -i http://pypi.douban.com/simple/--trusted-host pypi.douban.com #如果上一个提示不受信任，就使用这个，此参数“--trusted-host”表示信任

Conda环境下载Pandas：

conda install pandas

2.2 Pandas导入

import pandas as pd  #导入pandas包

3.1 Pandas基本功能

1. 读取数据

data = pd.read_csv( my_file.csv )  
data = pd.read_csv( my_file.csv , sep= ; , encoding= latin-1 , nrows=1000, skiprows=[2,5])
####函数参数说明
# my_file.csv：你的文件路径
# sep: 分隔符，比如csv文件的分隔符是“；”，那么你就需要指定出它
# encoding：编码设置为  latin-1 来读取文件
# nrows：表示读取文件前500行数据
# skiprows：表示你在读取文件的时候会跳过第 2 行和第 5 行


## 常用的文件类型
# excel: read_excel
# csv: read_csv

2. 写数据

data.to_csv( my_new_file.csv , index=None)
###参数说明
# my_new_file.csv：文件保存位置
# index :是否为保存的文件添加索引
####常保存类型
# csv: data.to_csv
# excel: data.to_excel

3.检查数据

data.describe()  #给出数据的行数和列数

4.查看数据

data.head(5) #查看数据前5行数据，当数据量大时候好使
data.loc[13] #查看数据第13行
data.tail() #查看数据最后一行
data.loc[8, column_name] #查看数据第八行column_name列的值
data.loc[range(3,7)] #等效于data.loc[3,4,5,6]（左闭右开）  查看数据第3到6行

5.逻辑运算

data[data[ column_1 ]== french ]   #打印出数据中所有column_1列值为french的行
data[(data[ column_1 ]== french ) & (data[ year_born ]==1990)] 
#打印出数据中所有column_1列值为french且year_born列值为1990的行
data[(data[ column_1 ]== french ) & (data[ year_born ]==1990) & ~(data[ city ]== London )]
# &：and   ~：not  |：or
data[data[ column_1 ].isin([ french ,  english ])]  #多个or同时时候可以考虑用.isin（）函数代替